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Ц ель этой книги заключается в исследовании наиболее 
важных компьютерных алгоритмов, которые приме- 
няются в настоящий момент, а также обучение фундамен- 
тальным технологиям постоянно возрастающего количе- 
ства разработчиков, испытывающих потребность в 
подобного рода информации. Книга может использовать- 
ся в качестве учебника для студентов второго, третьего и 
четвертого курсов факультетов, на которых изучается 
компьютерная инженерия, после того как студенты овла- 
дели основными навыками программирования, но перед 
прослушиванием дополнительных тем компьютерной ин- 
женерии и компьютерных приложений. Поскольку книга 
содержит реализации полезных алгоритмов и подробную 
информацию по характеристикам производительности 
этих алгоритмов, она может пригодиться и тем, кто зани- 
мается самообразованием, или же может послужить спра- 
вочником для тех, кого интересует разработка компью- 
терных систем или приложений. Широкий круг 
рассматриваемых вопросов делает ее исключительным 
учебником в данной предметной области. 

В новом издании текст был полностью переработан, и 
в него было включено более тысячи новых упражнений, 
более сотни новых рисунков и десятки новых программ. 
Кроме того, ко всем рисункам и программам были добав- 
лены подробные комментарии. Этот новый материал ох- 
ватывает как новые темы, так и более полно поясняет 
многие классические алгоритмы. Большее внимание, уде- 
ленное в книге абстрактным типам данных, расширяет 
сферу применения приведенных программ и делает их 
более пригодными для современных сред программирова- 
ния. Читатели, знакомые с предыдущими изданиями кни- 
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ги, найдут в ней множество новой информации; абсолютно все читатели найдут в 
книге большой объем учебного материала, который позволяет успешно изучить важ- 
ные концепции. 

В связи с большим объемом нового материала новое издание разбито на два тома 
(каждый примерно равен по объему предыдущему изданию), первый из которых — 
перед вами. В этом томе освещены фундаментальные концепции, структуры данных, 
алгоритмы сортировки и поиска; второй том посвящен более сложным алгоритмам и 
приложениям, построенным на базе абстракций и методов, разработанных в первом 
томе. Почти весь включенный в это издание материал по основным принципам и 
структурам данных является новым. 

Книга адресована не только программистам и студентам и аспирантам, изучаю- 
щим компьютерные науки. Подавляющее большинство пользователей компьютеров 
желают работать быстрее либо решать более сложные задачи. Приведенные в книге 
алгоритмы представляют собой квинтэссенцию знаний, накопленных за последние 
более чем 50 лет, которые стали совершенно необходимыми для эффективного ис- 
пользования компьютера для широчайшего множества приложений. Начиная с задач 
моделирования систем из N тел в физике и завершая задачами анализа генетического 
кода в молекулярной биологии, описанные здесь базовые методы стали важной со- 
ставной частью научных исследований. Они являются также важными составными 
частями современных программных систем, в числе которых как системы управле- 
ния базами данных, так и механизмы поиска в Іпіетеі. По мере расширения сферы 
применения компьютерных приложений возрастает и значение освещенных здесь 
базовых методов. Эта книга предназначена быть источником информации для сту- 
дентов и профессионалов, заинтересованных в понимании и эффективном исполь- 
зовании описанных фундаментальных алгоритмов как основных инструментальных 
средств для любого компьютерного приложения, для которого они подходят. 

Круг рассматриваемых вопросов 

Книга содержит 16 глав, сгруппированных в виде четырех основных частей: ана- 
лиз, структуры данных, сортировка и поиск. Приведенные в ней описания призваны 
познакомить читателей с основными свойствами максимально широкого круга основ- 
ных алгоритмов. Описанные здесь алгоритмы находят широкое применение в тече- 
ние долгих лет и являются существенно важными как для профессиональных про- 
граммистов, так и для изучающих компьютерные науки. Все описанные в книге 
остроумные методы, от биномиальных очередей до раігісіа-деревьев, относятся к 
базовым концепциям, лежащим в основе компьютерных наук. Второй том состоит из 
четырех дополнительных частей, в которых освещены строки, геометрия, графы и 
другие темы. Основной целью при написании этих книг было собрать воедино фун- 
даментальные методы из этих различных областей для ознакомления с лучшими ме- 
тодами решения задач с помощью компьютера. 

Собранный в этой книге материал должен произвести наибольшее впечатление на 
тех читателей, которые знакомы с одним-двумя курсами по компьютерам или обла- 
дают аналогичным опытом в программировании: знакомых с программированием на 
языках высокого уровня, таких как С++, ^ѵа или С, и, возможно, тех, кто прошел 
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основные концепции систем программирования. Таким образом, в первую очередь, 
книга предназначена тем, кто знаком с современным языком программирования и 
с основными свойствами современных компьютерных систем. В тексте присутству- 
ют ссылки, которые могут поспособствовать восполнению пробелов в знаниях. 

Большинство математических выкладок, сопровождающих аналитические резуль- 
таты, являются самодостаточными (либо же помечены как выходящие за рамки этой 
книги), поэтому для понимания изложенного в книге материала требуется лишь ми- 
нимальная математическая подготовка, хотя хорошая подготовка определенно будет 
способствовать лучшему усвоению. 

Использование в рамках учебных курсов 

Изучение изложенного в книге материала может существенно варьироваться в 
зависимости от предпочтений преподавателя и подготовки студентов. Книга содержит 
достаточный объем фундаментальных материалов, чтобы ее можно было использо- 
вать для изучения структур данных начинающими, и в ней приведено достаточно до- 
полнительных материалов, чтобы она могла использоваться в качестве учебника по 
разработке и анализу алгоритмов для более подготовленных студентов. Одни препо- 
даватели могут уделять больше внимания реализациям и практическим вопросам, а 
другие — анализу и теоретическим концепциям. 

Автор разрабатывает ряд учебных материалов, предназначенных для использова- 
ния в сочетании с этой книгой, в том числе и слайдовые демонстрации для исполь- 
зования на лекциях, задания по программированию, домашние задания и примеры 
экзаменационных билетов, а также интерактивные упражнения для студентов. Эти 
материалы будут доступны на \ѴеЪ-странице, посвященной книге, по адресу ІШр:// 
\ѵ\ѵ\ѵ.а\ѵ1.сот/с$еп§/Ш1е$/0-20 1-35088-2. 

В элементарном курсе по структурам данных и алгоритмам основное внимание 
может уделяться основным структурам данных, описанным в части 2, и их использо- 
ванию в реализациях, приведенных частях 3 и 4. В курсе по разработке и анализу ал- 
горитмов основное внимание может уделяться материалу, изложенному в части 1 и 
главе 5, после чего можно приступить к изучению способов достижения хорошей 
асимптотической производительности алгоритмов, описанных в частях 3 и 4. В кур- 
се по разработке программного обеспечения математические выкладки и дополни- 
тельные материалы по алгоритмам можно опустить, а основное внимание акценти- 
ровать на интеграции приведенных здесь реализаций в большие программы или 
системы. В курсе по алгоритмам может использоваться обзорный подход с рассмот- 
рением концепций, относящихся ко всем названным темам. 

В течение нескольких последних лет предыдущие издания книги использовались 
во множестве колледжей и университетов по всему миру как учебник для студентов 
второго и третьего курсов компьютерных специальностей, а также в качестве допол- 
нительного учебного пособия для студентов других специализаций. Исходя из опыта 
Принстонского университета, можно утверждать, что приведенные в этой книге ма- 
териалы обеспечивают основную массу студентов вводными сведениями по компью- 
терным наукам, которые затем могут быть расширены в ходе последующего изуче- 
ния курсов по анализу алгоритмов, программированию систем и теории компьютеров. 
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в то же время снабжая все возрастающую группу студентов других специальностей 
большим набором технологий, которые они смогут немедленно и успешно исполь- 
зовать. 

Упражнения, большинство из которых впервые включены в это издание, разделя- 
ются на несколько типов. Ряд из них предназначены для проверки усвоения изложен- 
ного в книге материала, и в них читателям просто предлагается проанализировать 
пример или применить описанные в тексте концепции. Другие же требуют реализа- 
ции и сборки алгоритмов воедино или экспериментального исследования с целью 
сравнения вариантов алгоритмов и изучения их свойств. Третьи содержат важную 
информацию, уровень детализации которой выходит за рамки основного материала 
книги. Ознакомление и выполнение упражнений будет полезно абсолютно всем чи- 
тателям. 

Практическое применение алгоритмов 

Каждый желающий как можно более эффективно использовать компьютер может 
воспользоваться этой книгой как справочным пособием. Читатели, обладающие оп- 
ределенным опытом в программировании, смогут найти в книге информацию по 
конкретным темам. В большинстве случаев отдельные главы книги не зависят одна 
от другой, хотя иногда в алгоритмах используются методы, описанные в предыдущих 
главах. 

Книга ориентирована на изучение алгоритмов, которые, скорее всего, найдут 
практическое применение. В ней приводится информация об инструментальных 
средствах, чтобы читатели могли осознанно реализовывать, отлаживать и настраивать 
алгоритмы для решения конкретных задач или для обеспечения заданных функцио- 
нальных возможностей приложения. В книгу включены полные реализации рассмот- 
ренных методов, а также описания действия этих программ применительно к после- 
довательному набору примеров. 

Поскольку работа выполняется с реальным, а не псевдокодом, программы мож- 
но быстро задействовать в практических целях. Их листинги доступны на начальной 
\УеЪ-странице книги. При изучении алгоритмов эти работающие программы можно 
использовать различными способами. Их можно прочесть для проверки своего пони- 
мания особенностей алгоритма или с целью ознакомления с одним из возможных 
способов обработки инициализации, граничных условий и других сложных ситуаций, 
которые зачастую вызывают затруднения при программировании. Читатели могут 
запустить их, чтобы увидеть алгоритмы в действии, для эмпирическою исследования 
производительности и для сравнения полученных результатов с данными, приведен- 
ными в таблицах книги, либо же для тестирования внесенных изменений. 

Когда это уместно, для обоснования предпочтительности определенных алгорит- 
мов приводятся как экспериментальные, так и аналитические результаты. В представ- 
ляющих интерес случаях описывается взаимосвязь между рассматриваемыми практи- 
ческими алгоритмами и чисто теоретическими результатами. Хотя это и не 
подчеркивается, в тексте книги устанавливается взаимосвязь между анализом алгорит- 
мов и теорией компьютерных наук. В книге собрана и проан&тизирована специфи- 
ческая информация по характеристикам производительности алгоритмов и реализа- 
ций. 
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Язык программирования 

Для всех реализаций использовался язык программирования С++. В программах 
применяется широкое множество стандартных идиом С++, а в текст включены крат- 
кие описания каждой из конструкций. 

Автор совместно с Крисом Ван Виком разработали основанный на классах, шаб- 
лонах и перегруженных операциях стиль программирования на С++, который по 
нашему мнению позволяет эффективно представлять алгоритмы и структуры данных 
в виде реальных программ. Мы стремились к изящным, компактным, эффективным 
и переносимым реализациям. Везде, где это возможно, мы стремились сохранить 
единство стиля, дабы сходные по действию программы выглядели похожими. 

Для множества приведенных в этой книге алгоритмов схожесть сохраняется неза- 
висимо от языка: быстрая сортировка остается быстрой сортировкой (это лишь один 
яркий пример) независимо от того, выражена ли она на языке Аба, А1§о1-60, Вазіс, 
С, С++, Рогігап, Заѵа, Меза, Мобиіа-З, Разсаі, РозіЗсгірі, Зшаіііаік или на одном из 
других бесчисленных языков программирования или в другой среде, где она зареко- 
мендовала себя как эффективный метод сортировки. С одной стороны, представлен- 
ный нами код продиктован опытом реализации алгоритмов на этих и множестве дру- 
гих языков (С-версия этой книги также доступна, а Заѵа-версия будет вскоре издана). 
С другой стороны, отдельные особенности некоторых из этих языков продиктованы 
опытом их применения разработчиками по отношению к некоторым алгоритмам и 
структурам данных, которые рассматриваются в книге. 

Глава 1 является характерным примером подобного подхода к разработке эффек- 
тивных реализаций рассматриваемых алгоритмов на С++, а в главе 2 описывается 
используемый нами подход к их анализу. Главы 3 и 4 посвящены описанию и обосно- 
ванию основных механизмов, используемых для реализаций типов данных и абстрак- 
тных типов данных. Эти четыре главы закладывают фундамент для понимания ос- 
тальной части книги. 
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Предисловие консультанта по С++ 

Именно алгоритмы вовлекли меня в компьютерные науки. Изучение алгоритмов 
требует сочетания нескольких подходов: творческого — для выработки идеи решения 
задачи; логического — для анализа правильности решения; математического — для 
анализа производительности; и скрупулезного — для выражения идеи в виде подроб- 
ной последовательности шагов, чтобы она могла превратиться в программу. Посколь- 
ку наибольшее удовлетворение при изучении алгоритмов мне доставляет их реализа- 
ция в виде работающих компьютерных программ, я с радостью ухватился за 
возможность поработать с Бобом Седжвиком над книгой по алгоритмам, основанной 
на программах С++. 

Мы с Бобом написали примеры программ, непосредственно используя соответ- 
ствующие свойства языка С++. Мы применяли классы для разделения определения 
абстрактного типа данных от нюансов реализации. Мы использовали шаблоны и пе- 
регруженные операторы, чтобы программы можно было использовать без изменений 
со многими различными типами данных. 

Однако, мы не воспользовались возможностью продемонстрировать множество 
других технологий С++. Например, обычно мы опускаем, по крайней мере, некото- 
рые конструкторы, необходимые, чтобы любой класс был "первым классом"; в боль- 
шинстве конструкторов для хранения значений в членах данных используется при- 
сваивание, а не инициализация; вместо строк из библиотеки С++ мы использовали 
символьные строки в стиле С; мы не использовали большинство возможных "упро- 
щенных" классов контейнеров; и, наконец, мы использовали простые, а не "интел- 
лектуальные" указатели. 

В большинстве случаев подобный выбор был продиктован желанием сосредото- 
читься на алгоритмах, а не на нюансах технологии, характерных для С++. Как толь- 
ко читатели поймут, как работают программы в этой книге, они окажутся вполне 
подготовлеными для изучения любых или же всех этих технологий, чтобы оценить 
связанные с ними ограничения производительности и предусмотрительность разра- 
ботчиков библиотеки стандартных шаблонов. 

Независимо от того, впервые ли читатели сталкиваются с изучением алгоритмов, 
или же просто освежают ранее полученные знания, они смогут получить, по крайней 
мере, такое же удовольствие, какое получил я, работая над программами с Бобом 
Седжвиком. 

Я благодарю Джона Бентли (.Іоп Вепііеу), Брайана Кернигана (Вгіап Кегпі^Ьап) 
и Тома Шимански (Тот Згутапзкі), от которых узнал многое о программировании; 
Дебби Лафферти ( ОеЬЬіе ЬаГГегІу), которая предложила мне принять участие в этом 
проекте; а также фирму Веіі І_аЪ$, университету Дрю и Принстонскому университе- 
ту за оказанную ими безвозмездную поддержку. 


Кристофер Ван Вик 
Чатем , Нью-Джерси , 1998 г. 
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Примечания к упражнениям 

Классификация упражнений — это занятие, сопряженное с рядом трудностей, по- 
скольку читатели такой книги, как эта, обладают различным уровнем знаний и опы- 
та. Тем не менее, определенное указание г*е помешает, поэтому многие упражнения 
помечены одним из четырех маркеров, дабы проще было выбрать соответствующий 
подход. 

Упражнения, которые проверяют понимание материала, помечены незаполненным 
треугольником: 

> 9.54. Вычертить биномиальную очередь размера 29, воспользовавшись представ- 
лением в виде биномиального дерева. 

Чаще всего такие упражнения непосредственно связаны с примерами в тексте. Они 
не должны вызывать особых трудностей, но их выполнение может прояснить факт 
или концепцию, которые возможно были упущены при прочтении текста. 

Упражнения, которые дополняют текст новой и требующей размышлений информа- 
цией, помечены незаполненной окружностью: 

о 9.62. Построить такую программную реализацию биномиальной очереди, чтобы 
выполнялась лемма 9.7. Использовать для этой цели сигнальный указатель, отме- 
чающий точку, в которой циклы должны завершаться. 

Такие упражнения заставляют подумать о важных концепциях, связанных с мате- 
риалом, изложенным в тексте, или ответить на вопрос, который может возникнуть во 
время прочтения. Возможно, читатели сочтут полезным прочесть эти упражнения 
даже при отсутствии времени для их выполнения. 

Упражнения, которые имеют целью поставить перед читателями задачу , помечены 
черной точкой: 

• 9.63. Реализовать операцию вставить (іпзегг) для биномиальных очередей путем 
явного использованием одной лишь операции объединитъ О'оіп). 

Для выполнения таких упражнений потребуется потратить значительное время, в 
зависимости от опыта читателя. В общем случае, лучше всего выполнять их за не- 
сколько подходов. 

Несколько упражнений, которые особенно трудны (по сравнению с большинством 
других) помечены двумя черными точками: 

••9.64. Реализовать операцию изменить приоритет (скап%е ргіогііу) и удалить (гетоѵе) 
для биномиальных очередей. Совет : Потребуется добавить третью связь, которая 
указывает на узлы вверх по дереву. 

Эти упражнения аналогичны вопросам, которые могут ставиться в научной лите- 
ратуре, однако материал книги может так подготовить читателей, что им доставит 
удовольствие попытаться ответить на них (возможно, и преуспеть в этом). 

Мы старались, чтобы пометки были безотносительными к программной и матема- 
тической подготовке читателей. Те упражнения, которые требуют наличия опыта по 
программированию или математическому анализу, очевидны. Мы призываем всех 
читателей проверить свое понимание алгоритмов, реализовав их. Тем не менее, уп- 
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ражнения подобные приведенному ниже, просты для профессиональных программи- 
стов или студентов, изучающих программирование, но могут потребовать значитель- 
ных усилий от тех, кто в последнее время по ряду причин программированием не 
занимался: 

• 1.22 Измените программу 1.4, чтобы она генерировала случайные пары целых чи- 
сел в диапазоне от 0 до N - 1 вместо того, чтобы считывать их из стандартного вво- 
да, и выполняла цикл до тех пор, пока не будет выполнено N - 1 операций ипіоп. 
Выполните программу для значений N = ІО 3 , ІО 4 , ІО 5 и ІО 6 и выведите общее ко- 
личество ребер, генерируемых для каждого значения N. 

Мы призываем всех читателей стремиться учитывать приводимые нами аналити- 
ческие обоснования свойств всех алгоритмов. С другой стороны, упражнения, подоб- 
ные нижеследующему, не составят сложности для ученого или изучающего дискрет- 
ную математику, однако наверняка потребуют значительных усилий от тех, кто 
давно не занимался математическим анализом: 

1.12 Вычислите среднее расстояние от узла до корня в худшем случае в дереве, 
построенном алгоритмом взвешенного быстрого объединения из 2 я узлов. 

Существует слишком много упражнений, чтобы их все можно было прочесть и 
усвоить; тем не менее, я надеюсь, что в книге приводится достаточное количество 
упражнений, дабы сподвигнуть читателей стремиться к более глубокому пониманию 
интересующих их тем, чем можно добиться в результате простого чтения текста. 



Ввеление 

Приниипы анализа алгоритмов 
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Ц ель этой книги — изучение широкого множества важ- 
ных и полезных алгоритмов : методов решения задач, 
которые подходят для компьютерной реализации. Мы бу- 
дем иметь дело с различными областями применения, все- 
гда уделяя основное внимание фундаментальным алго- 
ритмам, которые важно знать и интересно изучать. Мы 
затратим достаточное время на изучение каждого алго- 
ритма, чтобы понять его основные характеристики и ра- 
зобраться в его тонкостях. Наша цель — достаточно под- 
робно изучить большое количество наиболее важных 
алгоритмов, используемых в компьютерах в настоящее 
время, чтобы иметь возможность их применять и учиты- 
вать при решении задач. 

Стратегия, используемая для изучения представленных 
в этой книге программ, заключается в их реализации и 
тестировании, экспериментировании с их разновидностя- 
ми, рассмотрении их действия применительно к неболь- 
шим примерам и попытке их применения к более слож- 
ным практическим задачам. Для описания алгоритмов 
будет использоваться язык программирования С++, тем 
самым обеспечивая и полезные реализации. Программы 
написаны в единообразном стиле, который допускает так- 
же применение и других современных языков програм- 
мирования. 

Значительное внимание также уделяется характерис- 
тикам производительности алгоритмов, чтобы легче было 
разрабатывать усовершенствованные версии, сравнивать 
различные алгоритмы выполнения той же самой задачи и 
предсказывать или гарантировать производительность при 
решении сложных задач. Для понимания действия алго- 
ритмов может потребоваться выполнение экспериментов 
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или математического анализа, либо и того и другого. В книге подробно рассматри- 
ваются многие наиболее важные алгоритмы; причем, когда это приемлемо, аналити- 
ческие выкладки приводятся непосредственно в тексте; в других случаях, при необ- 
ходимости, используются результаты, приводимые в научной литературе. 

С целью иллюстрации общего подхода к разработке алгоритмических решений, в 
этой главе рассматривается подробный пример, включающий в себя ряд алгоритмов 
решения конкретной задачи. Рассматриваемая задача — не просто модельная зада- 
ча; она является фундаментальной вычислительной задачей, и полученное решение 
используется в различных приложениях. Мы начнем с простого решения, затем по- 
стараемся выяснить его характеристики производительности, что поможет усовер- 
шенствовать алгоритм. После нескольких итераций этого процесса мы получим эф- 
фективный и полезный алгоритм решения задачи. Этот пример — своего рода 
прототип использования этой же общей методологии во всей книге. 

В конце главы приводится краткое содержание книги с описанием основных ча- 
стей и их взаимосвязи между собой. 

1.1 Алгоритмы 

В общем случае при создании компьютерной программы мы реализуем метод, 
который ранее был разработан для решения какой-либо задачи. Часто этот метод не 
зависит от конкретного используемого компьютера — весьма вероятно, что он будет 
равно пригодным для многих компьютеров и многих компьютерных языков. Имен- 
но метод, а не саму программу нужно исследовать для выяснения способа решения 
задачи. Термин алгоритм используется в компьютерных науках для описания метода 
решения задачи, пригодного для реализации в виде компьютерной программы. Ал- 
горитмы составляют основу компьютерных наук: они являются основными объекта- 
ми изучения во многих, если не в большинстве ее областей. 

Большинство представляющих интерес алгоритмов касаются методов организации 
данных, участвующих в вычислениях. Созданные таким образом объекты называются 
структурами данных , и они также являются центральными объектами изучения в ком- 
пьютерных науках. Следовательно, алгоритмы и структуры данных идут рука об 
руку. В этой книге мы покажем, что структуры данных существуют в качестве суб- 
продуктов или конечных продуктов алгоритмов и, следовательно, их нужно изучить, 
чтобы понять алгоритмы. Простые алгоритмы могут Порождать сложные структуры 
данных и наоборот, сложные алгоритмы могут использовать простые структуры дан- 
ных. В этой книге будут изучены свойства многих структур данных; фактически кни- 
га вполне могла бы называться "Алгоритмы и структуры данных в С++". 

Когда компьютер используется для решения той или иной задачи, как правило, мы 
сталкиваемся с рядом возможных различных подходов. При решении простых задач 
выбор того или иного подхода вряд ли имеет особое значение, если только выбран- 
ный подход приводит к правильному решению. Однако, при решении сложных задач 
(или в приложениях, в которых приходится решать очень большое количество про- 
стых задач) мы немедленно сталкиваемся с необходимостью разработки методов, при 
которых время или память используются с максимальной эффективностью. 

Основная побудительная причина изучения алгоритмов состоит в том, что это по- 
зволяет обеспечить огромную экономию ресурсов, вплоть до получения решений за- 
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дач, которые в противном случае были бы невозможны. В приложениях, в которых 
обрабатываются миллионы объектов, часто оказывается возможным ускорить рабо- 
ту программы в миллионы раз, используя хорошо разработанный алгоритм. Подоб- 
ный пример приводится в разделе 1.2 и множестве других разделов книги. Для срав- 
нения, вложение дополнительных денег или времени для приобретения и установки 
нового компьютера потенциально позволяет ускорить работу программы всего в 10- 
100 раз. Тщательная разработка алгоритма — исключительно эффективная часть про- 
цесса решения сложной задачи в любой области применения. 

При разработке очень большой или сложной компьютерной программы значитель- 
ные усилия должны затрачиваться на выяснение и определение задачи, которая дол- 
жны быть решена, осознание ее сложности и разбиение ее на менее сложные под- 
задачи, решения которых можно легко реализовать. Часто реализация многих из 
алгоритмов, требующихся после разбиения, тривиальна. Однако, в большинстве слу- 
чаев существует несколько алгоритмов, выбор которых критичен, поскольку для их 
выполнения требуется большая часть системных ресурсов. Именно этим типам алго- 
ритмов уделяется основное внимание в данной книге. Мы изучим ряд основопола- 
гающих алгоритмов, которые полезны при решении сложных задач во многих обла- 
стях применения. 

Совместное использование программ в компьютерных системах становится все 
более распространенным, поэтому, хотя можно ожидать, что использовать придется 
многие из рассмотренных в книге алгоритмов, одновременно можно надеяться, что 
реализовывать придется лишь немногие из них. Например, библиотека стандартных 
шаблонов (Зіапсіагё Тетріаіе ЫЬгагу) С++ содержит реализации множества базовых 
алгоритмов. Однако реализация простых версий основных алгоритмов позволяет луч- 
ше их понять и, следовательно, эффективнее использовать и настраивать более со- 
вершенные библиотечные версии. И что еще важнее, повод повторной реализации 
основных алгоритмов возникает очень часто. Основная причина состоит в том, что 
мы сталкиваемся, и очень часто, с совершено новыми вычислительными средами (ап- 
паратными и программными) с новыми свойствами, которые не могут наилучшим 
образом использоваться старыми реализациями. Другими словами, чтобы наши реше- 
ния были более переносимыми и дольше сохраняющими актуальность, часто прихо- 
дится реализовывать базовые алгоритмы, приспособленные к конкретной задаче, а 
не основывающиеся на системных подпрограммах. Другая часто возникающая при- 
чина повторной реализации базовых алгоритмов заключается в том, что несмотря на 
усовершенствования встроенные в С++, механизмы, используемые для совместно- 
го использования программ, не всегда достаточно мощны, чтобы библиотечные про- 
граммы можно было легко приспособить к эффективному выполнению конкретных 
задач. 

Компьютерные программы часто чрезмерно оптимизированы. Обеспечение наи- 
более эффективной реализации конкретного алгоритма может не стоить затраченных 
усилий, если только алгоритм не должен использоваться для решения очень сложной 
задачи или же многократно. В противном случае вполне достаточно качественной, 
сравнительно простой реализации: достаточно быть уверенным в ее работоспособно- 
сти и в том, что, скорее всего, в худшем случае она будет работать в 5-10 раз мед- 
леннее наиболее эффективной версии, что может означать увеличение времени вы- 
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полнения на несколько дополнительных секунд. И напротив, правильный выбор ал- 
горитма может ускорить работу в 100-1000 и более раз, что может вылиться во вре- 
мя выполнения в экономию минут, часов и даже более того. В этой книге основное 
внимание уделяется простейшим приемлемым реализациям наилучших алгоритмов. 

Выбор наилучшего алгоритма выполнения конкретной задачи может оказаться 
сложным процессом, возможно, требующим сложного математического анализа. На- 
правление компьютерных наук, занимающееся изучением подобных вопросов, назы- 
вается анализом алгоритмов. Анализ многих изучаемых алгоритмов показывает, что 
они имеют прекрасную производительность; о хорошей работе других известно про- 
сто из опыта их применения. Наша основная цель — изучение приемлемых алгорит- 
мов выполнения важных задач, хотя значительное внимание будет уделено также 
сравнительной производительности различных методов. Не следует использовать ал- 
горитм, не имея представления о ресурсах, которые могут потребоваться для его вы- 
полнения, поэтому мы стремимся знать, как могут выполняться используемые алго- 
ритмы. 


1.2 Пример задачи: связность 


Предположим, что имеется последовательность пар целых чисел, в которой каж- 
дое целое число представляет объект некоторого типа, а пара р-ч интерпретируется 
в значении м р связано с я". Мы предполагаем, что отношение 'связано с" является 
транзитивным: если р связано с а ц связано с г, то р связано с г. Задача состоит в 


написании программы для исключения лишних 
пар из набора: когда программа вводит пару р- 
Ч, она должна выводить эту пару только в том 
случае, если просмотренные до данного момен- 
та пары не предполагают , что р связано с ц. Если 
в соответствии с ранее просмотренными парами 
следует, что р связано с ц, программа должна иг- 
норировать пару р-ч и переходить ко вводу сле- 
дующей пары. Пример такого процесса показан 
на рис. 1.1. 

Задача состоит в разработке программы, 
которая может запомнить достаточный объем 
информации о просмотренных парах, чтобы 
решить, связана ли новая пара объектов. Доста- 
точно неформально задачу разработки такого 
метода мы называем задачей связности. Эта зада- 
ча возникает в ряде важных приложений. Для 
подтверждения всеобщего характера этой зада- 
чи мы кратко рассмотрим три примера. 

Например, целые числа могли бы представ- 
лять компьютеры в большой сети, а пары могли 
бы представлять соединения в сети. Тогда такая 
программа могла бы использоваться для опреде- 
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РИСУНОК 1.1 ПРИМЕР СВЯЗНОСТИ 

При заданной последовательности пар 
целых чисел, представляющих связь 
между объектами (слева) задачей 
алгоритма связности заключается в 
выводе тех пар , которые обеспечивают 
новые связи (в центре). Например , пара 
2-9 не должна выводиться , поскольку 
связь 2 -3-4- 9 определяется ранее 
указанными связями (подтверждение 
этого показано справа). 
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ления того, нужно ли устанавливать новое прямое соединение между р и ч, чтобы 
иметь возможность обмениваться информацией, или же можно было бы использовать 
существующие соединения для установки коммуникационного пути. В подобных при- 
ложениях может потребоваться обработка миллионов точек и миллиардов или более 
соединений. Как мы увидим, решить задачу для такого приложения было бы невоз- 
можно без эффективного алгоритма. 

Аналогично, целые числа могли бы представлять контакты в электрической сети, 
а пары могли бы представлять связывающие их проводники. В этом случае программу 
можно было бы использовать для определения способа соединения всех точек без 
каких-либо избыточных соединений, если это возможно. Не существует никакой га- 
рантии, что ребер списка окажется достаточно для соединения всех точек — действи- 
тельно, вскоре мы увидим, что определение факта, так ли это, может быть основным 
применением нашей программы. 

Рисунок 1.2 иллюстрирует эти два типа приложений на более сложном примере. 
Изучение этого рисунка дает представление о сложности задачи связности: как можно 
быстро выяснить, являются ли любые две заданные точки в такой сети связанными? 



РИСУНОК 1.2 БОЛЬШОЙ ПРИМЕР СВЯЗНОСТИ 

Объекты, задействованные в задаче связности, могут представлять точки соединений, а пары могут 
быть соединениями между ними, как показано в этом идеализированном примере, который мог бы 
представлять провода, соединяющие здания в городе или компоненты в компьютерной микросхеме. 
Это графическое представление позволяет человеку выявить несвязанные узлы, но алгоритм должен 
работать только с переданными ему парами целых чисел. Связаны ли два узла, помеченные черными 
точками ? 
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Еще один пример встречается в определенных средах программирования, в кото- 
рых два имени переменных можно объявлять эквивалентными. Задача заключается в 
возможности определения, являются ли два заданных имени эквивалентными, после 
считывания последовательности таких объявлений. Это приложение — одно из пер- 
вых, обусловивших разработку нескольких алгоритмов, которые мы будем рассмат- 
ривать. Как будет показано далее, оно устанавливает непосредственную связь меж- 
ду рассматриваемой задачей и простой абстракцией, предоставляющей способ сделать 
алгоритмы полезными для широкого множества приложений. 

Такие приложения, как задача установления эквивалентности имен переменных, 
описанная в предыдущем абзаце, требует, чтобы целое число было сопоставлено с 
каждым отдельным именем переменной. Это сопоставление подразумевается также 
в описанных приложениях сетевого соединения и соединения в электрической цепи. 
В главах 10~16 мы рассмотрим ряд алгоритмов, которые могут эффективно обеспе- 
чить такое сопоставление. Таким образом, в этой главе без ущерба для общности 
можно предположить, что имеется N объектов с целочисленными именами от 0 до 
УѴ- 1. 

Нам требуется программа, которая выполняет конкретную, вполне определенную 
задачу. Существует множество других связанных с этой задач, решение которых так- 
же может потребоваться. Одна из первых задач, с которой приходится сталкиваться 
при разработке алгоритма — необходимость убедиться, что задача определена прием- 
лемым образом. Чем больше требуется от алгоритма, тем больше времени и объема 
памяти может потребоваться для выполнения задачи. Это соотношение невозможно 
в точности определить заранее, и часто определение задачи приходится изменять, 
когда выясняется, что ее трудно решить либо решение требует слишком больших зат- 
рат, или же когда, при удачном стечении обстоятельств, выясняется, что алгоритм 
может предоставить более полезную информацию, чем требовалось от него в исход- 
ном определении. 

Например, приведенное определение задачи связности требует только, чтобы про- 
грамма как-либо узнавала, является ли данная пара р-ч связанной, но не была спо- 
собна демонстрировать любой или все способы соединения этой пары. Добавление в 
определение такого требования усложняет задачу и привело бы к другому семейству 
алгоритмов, которое будет кратко рассматриваться в главе 5 и подробно — в части 7. 

Упомянутые в предыдущем абзаце определения требуют больше информации, чем 
первоначальное; может также требоваться меньше информации. Например, может 
требоваться просто ответить на вопрос: "Достаточно ли М связей для соединения всех 
N объектов?". Эта задача служит иллюстрацией того, что для разработки эффективных 
алгоритмов часто требуется выполнение умозаключений об абстрактных обрабатыва- 
емых объектах на высоком уровне. В данном случае из фундаментальных положений 
теории графов следует, что все N объектов связаны тогда и только тогда, когда ко- 
личество пар, образованных алгоритмом решения задачи связности, равно точно 
У — 1 (см. раздел 5.4). Иначе говоря, алгоритм решения задачи связности никогда не 
образует более УѴ — 1 пар, поскольку как только он образует УѴ — 1 пару, любая встре- 
тившаяся после этого пара будет уже связанной. Соответственно, можно создать про- 
грамму, отвечающую "да-нет” на только что поставленный вопрос, изменив програм- 
му, которая решает задачу связности, на такую, которая увеличивает значение 
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счетчика, а не записывает ранее не связанную пару, отвечая "да", когда значение 
счетчика достигает 7Ѵ — 1, и "нет", если это не происходит. Этот вопрос — всего лишь 
один из множества, которые могут возникнуть относительно связности. Входной на- 
бор пар называется графом ( СгарИ ), а выходной набор пар — остовным деревом 
(зраппіп% (гее) этого графа, которое связывает все объекты. Свойства графов, остов- 
ных деревьев и всевозможные связанные с ними алгоритмы будут рассматриваться в 
части 7. 

Имеет смысл попытаться определить основные операции, которые будут выпол- 
няться, и таким образом сделать любой алгоритм, разрабатываемый для решения за- 
дачи связности, полезным для ряда аналогичных задач. В частности, при получении 
каждой новой пары вначале необходимо определить, представляет ли она новое со- 
единение, а затем внедрить информацию об обнаруженном соединении в общую кар- 
тину о связности объектов для проверки соединений, которые будут наблюдаться в 
будущем. Мы инкапсулируем эти две задачи в виде абстрактных операций , считая це- 
лочисленные вводимые значения представляющими элементы в абстрактных наборах, 
а затем разработаем алгоритмы и структуры данных, которые могут: 

■ находитъ набор, содержащий данный элемент 

■ замещать наборы, содержащие два данных элемента, их объединением. 

Организация алгоритмов посредством этих абстрактных операций, похоже, не пре- 
пятствует никаким опциям решения задачи связности, а сами эти операции могут 
оказаться полезными при решении других задач. Разработка уровней абстракции с 
еще большими возможностями — основной процесс в компьютерных науках в целом 
и в разработке алгоритмов в частности, и в этой книге мы будем обращаться к нему 
многократно. В этой главе мы используем неформальное абстрактное представление 
для разработки программ решения задачи связности; внедрение абстракций в код 
С++ демонстрируется в главе 4. 

Задача связности легко решается посредством абстрактных операций /іпсі (поиск) 
и ипіоп (объединение). После считывания новой пары р-ч из ввода мы выполняем опе- 
рацию /іпсі для каждого члена пары. Если члены пары находятся в одном наборе, мы 
переходим к следующей паре; если нет, то выполняем операцию ипіоп и записываем 
пару. Наборы представляют связанные компоненты, поднаборы объектов, характери- 
зующиеся тем, что любые два объекта в данном компоненте связаны. Этот подход 
сводит разработку алгоритмического решения задачи связности к задачам определе- 
ния структуры данных, которая представляет наборы, и разработке алгоритмов ипіоп 
и /іпсі, которые эффективно используют эту структуру данных. 

Существует много возможных способов представления и обработки абстрактных 
наборов. В этой главе основное внимание уделяется поиску представления, которое 
может эффективно поддерживать операции ипіоп и ) іпсі , требующиеся для решения 
задачи связности. 

Упражнения 

1.1 Приведите вывод, который должен создаваться алгоритмом связности при за- 
данном вводе 0-2, 1-4, 2-5, 3-6, 0-4, 6-0 и 1-3. 
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1.2 Перечислите все различные способы связывания двух различных объектов, по- 
казанных в примере на рис. 1.1. 

1.3 Опишите простой метод подсчета количества наборов, остающихся после ис- 
пользования операций ипіоп и /іпсі для решения задачи связности, как описано в 
тексте. 


1.3 Алгоритмы объединение-поиск 

Первый шаг в процессе разработки эффективного алгоритма решения данной за- 
дачи — реализация простого алгоритма ее решения. Если нужно решить несколько ва- 
риантов конкретной задачи, которые оказываются простыми, это может быть выпол- 
нено посредством простой реализации. Если требуется более сложный алгоритм, то 
простая реализация предоставляет возможность проверить правильность работы ал- 
горитма для простых случаев и может служить отправной точкой для оценки харак- 
теристик производительности. Эффективность всегда является предметом заботы, но 
наша первоочередная забота при разработке первой программы решения задачи — 
убедиться в том, что программа обеспечивает правильное решение. 

Первое что приходит в голову — как-либо сохранить все вводимые пары, а затем 
создать функцию для их просмотра, чтобы попытаться выяснить, связана ли следую- 
щая Пара объектов. Однако нам придется использовать другой подход. Во-первых, 
количество пар может быть достаточно велико, что не позволит сохранить их все в 
памяти в используемом на практике приложении. Во-вторых, что гораздо важнее, не 
существует никакого простого метода, который сам по себе позволяет определить, 
связаны ли два объекта в наборе всех соединений, даже если бы удалось их все со- 
хранить! Базовый метод, использующий этот подход, рассматривается в главе 5, ме- 
тоды, которые исследуются в этой главе, проще, поскольку они решают менее слож- 
ную задачу, и эффективнее, поскольку не требуют сохранения всех пар. Все они 
используют массив целых чисел, каждое из которых соответствует отдельному объек- 
ту, для хранения информации, необходимой для реализации операций ипіоп и /іпсі. 

Массивы — это элементарные структуры данных, которые подробно изучаются в 
разделе 3.2. Здесь же они используются в простейшей форме: мы объявляем, что со- 
бираемся использовать, скажем, 1000 целых чисел, записывая а[1000]; затем обраща- 
емся к /-ому целому числу в массиве, записывая а[і] дія 0 < / < 1000. 

Программа 1.1 — реализация простого алгоритма, называемого алгоритмом быст- 
рого поиска , решающего задачу связности. В основе этого алгоритма лежит исполь- 
зование массива целых чисел, обладающих тем свойством, что р и # связаны тогда и толь- 
ко тогда, когда р - ая и д-ая записи массива равны. Мы инициализируем /- ую запись 
массива значением / при 0 < / < N. Чтобы реализовать операцию ипіоп для р ид, мы про- 
сматриваем массив, изменяя все записи с именем р на записи с именем д. Этот выбор 
произволен — можно было бы все записи с именем д изменять на записи с именем р. 


Программа 1.1 Решение задачи связности методом быстрого поиска 


Эта программа считывает последовательность пар неотрицательных целых чисел, 
меньших чем Л/, из стандартного ввода (интерпретируя пару р ц, как "связать объект 
р с объектом и") и выводит пары, представляющие объекты, которые еще не связаны. 
Она поддерживает массив ісі, содержащий запись для каждого объекта и 
характеризующийся тем, что элементы ісІ[р] и ісІ[я] равны тогда и только тогда, когда 
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объекты р и (] связаны. Для простоты N определена как константа времени 
компиляции. Иначе можно было бы считывать ее из ввода и распределять массив ісі 
динамически (см. раздел 3.2). 

#іпс1исіе <іоз1геат.Ь> 
зіаііс сопбі іпі N = 10000; 
іпі шаіп() 

{ іпі і, р, ч, ісі[ЫЗ; 

Іог (і = 0; і < і++) ісі [ ±3 = і; 

ѵгііііе (сіп » р » ч) 

{ іпі 1 = ісі [р] ; 

іі (1 == ісі [д] ) сопііпие; 

Іог (і = 0; і < Ы; і++) 

і* (ісі[і] == 1) ісі[і] = ісі[ч]; 
соиі « " " « р « " " « ч « епсіі ; 

} 

} 


Изменения массива при выполнении операций ипіоп в примере из рис. 1.1 показаны 
на рис. 1.3. Для реализации операции /іпд достаточно проверить указанные записи мас- 
сива на предмет равенства — отсюда и название быстрый поиск (диіск-рпф. С другой сто- 
роны, операция ипіоп требует просмотра всего массива для каждой вводимой пары. 


Лемма 1.1 Алгоритм быстрого поиска выполняет не 
менее М N инструкций для решения задачи связнос- 
ти при наличии N объектов, для которых требует- 
ся выполнение М операций объединения. 

Для каждой из М операций ипіоп цикл Гог выпол- 
няется N раз. Для каждой итерации требуется вы- 
полнение, по меньшей мере, одной инструкции 
(если только проверять, завершился ли цикл). 

На современных компьютерах можно выполнять 
десятки или сотни миллионов инструкций в секунду, 
поэтому эти затраты не заметны, если значения М и 
N малы, но в современных приложениях может по- 
требоваться обработка миллиардов объектов и мил- 
лионов вводимых пар. Поэтому мы неизбежно при- 
ходим к заключению, что подобную проблему нельзя 
решить приемлемым образом, используя алгоритм 
быстрого поиска (см. упражнение 1.10). Строгое обо- 
снование этого заключения приведено в главе 2. 

Графическое представление массива, показанно- 
го на рис. 1.3, приведено на рис. 1.4. Можно считать, 
что некоторые объекты представляют набор, к кото- 
рому они принадлежат, а остальные указывают на 
представителя их набора. Причина обращения к это- 
му графическому представлению массива вскоре 
станет понятна. Обратите внимание, что связи между 
ѵ ^ьектами в этом представлении не обязательно со- 
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РИСУНОК 1.3 ПРИМЕР БЫСТРОГО 
ПОИСКА (МЕДЛЕННОГО 
ОБЪЕДИНЕНИЯ) 

Здесь изображено содержимое 
массива Ш после того, как 
каждая пара, приведенная слева, 
обрабатывается алгоритмом 
быстрого поиска (программа 1.1). 
Затененные записи — те, 
которые изменяются для 
выполнения операции ипіоп. При 
обработке пары р ^ все записи со 
значением Щрі изменяются на 
содержащие значение Ш[д]. 



Глава 1. Введение 


ответствует связям во вводимых парах — они представляют собой информацию, запоми- 
наемую алгоритмом, чтобы иметь возможность определить, соединены ли пары, которые 
будут вводиться в будущем. 

Следующий алгоритм, который мы рассмотрим — метод дополнительный к пред- 
шествующему, названный алгоритмом быстрого объединения. В его основе лежит та же 
структура данных — индексированный по именам объектов массив — но в нем ис- 


пользуется иная интерпретация значении, что при- 
водит к более сложной абстрактной структуре. Каж- 
дый объект указывает на другой объект в этом же 
наборе, структуре, которая не содержит циклов. 
Для определения того, находятся ли два объекта в 
одном наборе, мы следуем указателям для каждо- 
го из них до тех пор, пока не будет достигнут 
объект, который указывает на самого себя. Объек- 
ты находятся одном наборе тогда и только тогда, 
когда этот процесс приводит их к одному и тому 
же объекту. Если они не находятся в одном набо- 
ре, процесс завершится на других объектах (кото- 
рые указывают на себя). Тогда для образования 
объединения достаточно связать один объект с дру- 
гим, чтобы выполнить операцию ипіоп; отсюда и 
название быстрое объединение (диіск-ипіоп). 

На рис. 1.5 показано графическое представле- 
ние, которое соответствует рис. 1.4 при выполне- 
нии алгоритма быстрого объединения к массиву, 
изображенному на рис. 1.1, а на рис. 1.6 показаны 
соответствующие изменения в массиве іё. Графи- 
ческое представление структуры данных позволяет 
сравнительно легко понять действие алгоритма — 
вводимые пары, которые заведомо должны быть 
соединены в данных, связываются одна с другой и 
в структуре данных. Как упоминалось ранее, важ- 
но отметить, что связи в структуре данных не обя- 
зательно совпадают со связями в приложении, обус- 



ловленными вводимыми парами; вместо этого они 
конструируются алгоритмом так, чтобы обеспечить 
эффективную реализацию операций ипіоп и фіпд. 

Связанные компоненты, изображенные на рис. 
1.5, называются деревьями ( Ггее ); это основополага- 
ющие комбинационные структуры, которые мно- 
гократно встречаются в книге. Свойства деревьев 
будут подробно рассмотрены в главе 5. Деревья, 
изображенные на рис. 1.5, удобны для выполнения 
операций ипіоп и / іпд , поскольку их можно быстро 
построить, и они характеризуются тем, что два 


РИСУНОК 1.4 ПРЕДСТАВЛЕНИЕ 
БЫСТРОГО ПОИСКА В ВИДЕ ДЕРЕВА 

На этом рисунке показано 
графическое представление примера, 
приведенного на рис. 1.3. Связи на 
этом рисунке не обязательно 
представляют связи в массиве ввода. 
Например, структура, показанная 
на нижнем рисунке, содержит связь 
1-7, которая отсутствует во вводе, 
но образуется в результате строки 
связей 7-3-4-9-5-6-1. 




Часть 1 . Анализ 


объекта связаны в дереве тогда и только тогда, 
когда объекты связаны в массиве ввода. Перемеща- 
ясь вверх по дереву, можно легко отыскать корень 
дерева, содержащего каждый объект, и, следова- 
тельно, можно выяснить, связаны они или нет. 
Каждое дерево содержит только один объект, ука- 
зывающий сам на себя, называемый корнем дере- 
ва. Указатель на себя на диаграммах не показан. 
Начав с любого объекта дерева и перемещаясь к 
объекту, на который он указывает, затем следую- 
щему указанному объекту и т.д., мы всегда со вре- 
менем попадаем к корню. Справедливость этого 
свойства можно доказать методом индукции: это 
справедливо после инициализации массива так, 
чтобы каждый объект указывал на себя, и если это 
справедливо перед выполнением данной операции 
ипіоп , это безусловно справедливо и после нее. 

Диаграммы для алгоритма быстрого поиска, 
показанные на рис. 1.4, характеризуются теми же 
свойствами, которые описаны в предыдущем абза- 
це. Различие состоит в том, что в деревьях быстро- 
го поиска мы достигаем корня из всех узлов, сле- 
дуя лишь одной связи, в то время как в дереве 
быстрого объединения для достижения корня мо- 
жет потребоваться проследовать по нескольким 
связям. 

Программа 1.2 — реализация операций ипіоп и 
фіпсі, образующих алгоритм быстрого объединения 
для решения задачи связности. На первый взгляд 
кажется, что алгоритм быстрого объединения ра- 
ботает быстрее алгоритма быстрого поиска, по- 
скольку для каждой вводимой пары ему не нужно 
просматривать весь массив; но на сколько быст- 
рее? В данном случае ответить на этот вопрос 
труднее, чем в случае быстрого поиска, поскольку 
время выполнения в большей степени зависит от 
характера ввода. Выполнив экспериментальные 
исследования или математический анализ (см. гла- 
ву 2), можно убедиться, что программа 1.2 значи- 
тельно эффективнее программы 1.1 и ее можно 
использовать для решения очень сложных реаль- 
ных задач. Одно из таких экспериментальных ис- 
следований будет рассмотрено в конце этого раз- 
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РИСУНОК 1.5 ПРЕДСТАВЛЕНИЕ 
БЫСТРОГО ОБЪЕДИНЕНИЯ 
В ВИДЕ ДЕРЕВА 

Этот рисунок — графическое 
представление примера, показанного 
на рис. 1.3. Мы прочерчиваем линию 
от объекта і к объекту Ш[і]. 


дела. 



Глава Г Введение 


РИСУНОК 1.6 ПРИМЕР БЫСТРОГО ОБЪЕДИНЕНИЯ 
(НЕ ОЧЕНЬ БЫСТРОГО ПОИСКА) 

Здесь изображено содержимое массива Ш после 
обработки каждой из показанных слева пар алгоритмом 
быстрого поиска (программа 1. 1). Затененные записи — 
те, которые изменяются для выполнения операции 
объединения (только по одной для каждой операции). 

При обработке пары р ^ мы следуем указателям, 
указывающим из р, чтобы добраться до записи і, у 
которой Щі] == /; затем мы следуем указателям, 
исходящим из чтобы добраться до записи у, у которой 
Щ)1 ==) ; затем, если і и у различны, мы устанавливаем 
Щі] = і(Щ] Для выполнения операции ]іпй для пары 5-8 
(последняя строка) і принимает значения 5 6 9 01, 
а] — значения 8 01. 

А пока быстрое объединение можно считать усовершенствованием, поскольку оно 
устраняет основной недостаток быстрого поиска (тот, что для выполнения М опера- 
ций ипіоп между А объектами программе требуется выполнение, по меньшей мере, 
А М инструкций). 

Программа 1.2 Решение задачи связности методом быстрого объединения 

Если тело цикла ѵѵйііе в программе 1.1 заменить этим кодом, мы получим программу, 
которая соответствует тем же спецификациям, что и программа 1.1, но выполняет 
меньше вычислений для операции ипіоп за счет выполнения большего количества 
вычислений для операции (іпсі. Циклы Гог и последующий оператор ІГ в этом коде 
определяют необходимые и достаточные условия для того, чтобы массив ісі для р и я 
был связанным. Оператор присваивания ісІ[і] = \ реализует операцию ипіоп. 

±ог (і = р; і != ісІ[і] ; і = ; 

±ог (з = з != ісі [ Л ; } = ігіІЛ) ; 

<і == ;]) сопЪіпие; 
і<і[і] = Э; 

соиЬ « " " « р « " " « ч « епсіі; 


р Ч 0123456789 

34 0124456789 

49 0124956789 

80 0124956709 

23 0194956709 

56 0194966709 

29 0194966709 

59 0194969709 

73 0194969909 

48 0194969900 

56 0194969900 

02 0194969900 

61 1194969900 

58 1194969900 


Это различие между быстрым объединением и быстрым поиском действительно 
является усовершенствованием, но быстрое объединение все же обладает тем недо- 
статком, что нельзя гарантировать , что оно будет выполняться существенно быстрее 
быстрого поиска в каждом случае, поскольку характер вводимых данных может за- 
медлять операцию у? пй. 

Лемма 1.2 При наличии М пар N объектов, когда М > IV, для решения задачи связнос- 
ти алгоритму быстрого объединения может потребоваться выполнение более чем 
М N / 2 инструкций. 

Предположим, что пары вводятся в следующем порядке: 1-2, 2-3, 3-4 и т.д. После 
ввода N ~ 1 таких пар мы имеем N объектов, принадлежащих к одному набору, и 
сформированное алгоритмом быстрого объединения дерево представляет собой 
прямую линию, где объект N указывает на объект А — 1, тот, в свою очередь, — на 
объект N — 2, тот — на А — 3 и т.д. Чтобы выполнить операцию /іпд для объекта А, 
программа должна отследить А— 1 указатель. 


Часть /. Анализ 


Таким образом, среднее количество указателей, 
отслеживаемых для первых N пар, равно 

(0+ 1 +...+ I)) / N = (УѴ— 1) / 2 
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Теперь предположим, что все остальные пары свя- 
зывают объект N с каким-либо другим объектом. 
Чтобы выполнить операцию /іпсі для каждой из этих 
пар, требуется отследить, по меньшей мере, (УѴ- 1) 
указатель. Общая сумма для М операций /іпсі для 
этой последовательности вводимых пар определен- 
но больше Л/УѴ / 2. 

К счастью, можно легко модифицировать алго- 
ритм, чтобы худшие случаи, подобные этому, гаранти- 
рованно не имели места. Вместо того чтобы произ- 
вольным образом соединять второе дерево с первым 
для выполнения операции ипіоп, можно отслеживать 
количество узлов в каждом дереве и всегда соединять 
меньшее дерево с большим. Это изменение требует 
несколько более объемного кода и наличия еще одно- 
го массива для хранения счетчиков узлов, как показа- 
но в программе 1.3, но оно ведет к существенному 
повышению эффективности. Мы будем называть этот 
алгоритм алгоритмом взвешенного быстрого объединения 
(угещкіед диіск-ипіоп аІ^огИкт). 

Программа 1.3 Взвешенная версия быстрого бъединения 
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Эта программа — модификация алгоритма быстрого 
объединения (см. программу 1.2), которая в служебных 
целях для каждого объекта, у которого іс![і] == і, поддер- 
живает дополнительный массив 52, представляющий со- 
бой массив количества узлов в соответствующем дереве, 
чтобы операция ипіоп могла связывать меньшее из двух 
указанных деревьев с большим, тем самым предотвра- 
щая разрастание длинных путей в деревьях. 

#іпс1исіе <іоз1:геат.]і> 
зѣа'Ьіс сопзі: іп^Ь N = 10000; 
іпЪ таіп() 

{ іпЪ і / з, р, ч, ісЦИ], 32[И]; 
і:ог (і = 0; і < И; і++) 

{ = і; зг[і] = 1; } 

ѵДііІе (сіп » р » д) 

{ 

^ог (і = р; і != ісі[і] ; і = і<2[і]); 
^ог (з = я; з != ісі[з]; 3 = ісі[з]); 

(і == з) сопііпие ; 

( з 2 [ і ] < з 2 [ з ] ) 

{ ісі [і] = з; з 2 [ з ] += з 2 [ і ] ; } 
еізе { і<1[з] = і; 52[і] += 52[з]; } 

сои! « И " « р « " И « « епсіі ; 

} 

} 



РИСУНОК 1.7 ПРЕДСТАВЛЕНИЕ 
ВЗВЕШЕННОГО БЫСТРОГО 
ОБЪЕДИНЕНИЯ В ВИДЕ ДЕРЕВА 

На этой последовательности 
рисунков демонстрируется 
результат изменения алгоритма 
быстрого объединения для 
связывания корня меньшего из двух 
деревьев с корнем большего из 
деревьев. Расстояние от каждого 
узла до корня его дерева не велико , 
поэтому операция поиска 
выполняется эффективно. 



Глава 1 . Введение 


На рис. 1.7 показан бор деревьев, созданных 
алгоритмом взвешенного поиска для примера 
ввода, приведенного на рис. 1.1. Даже в этом 
небольшом примере пути в деревьях существен- 
но короче, чем в случае невзвешенной версии, 
показанной на рис. 1.5. Рисунок 1.8 иллюстрирует, 
что происходит в худшем случае, когда размеры 
наборов, которые должны быть объединены в опе- 
рации ипіоп , всегда равны (и являются степенью 2). 
Эти структуры деревьев выглядят сложными, но 
они характеризуются простым свойством, что мак- 
симальное количество указателей, которые необ- 
ходимо отследить, чтобы добраться до корня в де- 
реве, состоящем из Т узлов, равно п. Более того, 
при слиянии двух деревьев, состоящих из Т узлов, 
мы получаем дерево, состоящее из 2" +1 узлов, а 
максимальное расстояние до корня увеличивается 
до п + 1. Это наблюдение можно обобщить для до- 
казательства того, что взвешенный алгоритм зна- 
чительно эффективнее невзвешенного. 

Лемма 1.3 Для определения того , связаны ли два 
из N объектов , алгоритму взвешенного быстрого 
объединения требуется отследить максимум 1§ N 
указателей. 

Можно доказать, что для операции ипіоп со- 
храняется свойство, что количество указателей, 
отслеживаемых из любого узла до корня в на- 
боре к объектов, не превышает 1§ к. При объе- 
динении набора, состоящего из / узлов, с набо- 
ром, состоящим из у узлов, при / < у количество 
указателей, которые должны отслеживаться в 
меньшем наборе, увеличивается на 1, но те- 
перь узлы находятся в наборе размера /+ у, и, 
следовательно, свойство остается справедли- 
вым, поскольку 1 + 1§ / = 1§(/ + /)< 1§(/ + у). 

Практическое следствие леммы 1.3 заключает- 
ся в том, что количество инструкций, которые ал- 
горитм взвешенного быстрого объединения ис- 
пользует для обработки М ребер между N 
объектами, не превышает М 1§ УѴ, умноженного на 
некоторую константу (см. упражнение 1.9). Этот 
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РИСУНОК 1.8 ВЗВЕШЕННОЕ БЫСТРОЕ 
ОБЪЕДИНЕНИЕ (ХУДШИЙ СЛУЧАЙ) 

Наихудший сценарий для алгоритма 
взвешенного быстрого объединения — 
когда каждая операция объединения 
связывает деревья одинакового 
размера . Если количество объектов 
меньше Т, расстояние от любого узла 
до корня его дерева меньше п. 


вывод резко отличается от вывода, что алгоритм быстрого поиска всегда (а алгоритм 
быстрого объединения иногда) использует не менее М N /2 инструкций. Таким обра- 
зом, при использовании взвешенного быстрого объединения можно гарантировать 
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Часть 1 . Анализ 


решение очень сложных встречающихся на прак- 
тике задач за приемлемое время (см. упражнение 
1.11). Ценой добавления нескольких дополнитель- 
ных строк кода мы получаем программу, которая 



при решении очень сложных задач, которые мо- 
гут встретиться на практике, работает буквально 
в миллионы раз быстрее, чем более простые алго- 
ритмы. 

Из приведенных схем видно, что лишь срав- 
нительно небольшое количество узлов располага- 
ются далеко от корня; действительно, экспери- 
ментальное изучение очень сложных задач 
показывает, что как правило, для решения прак- 
тических задач посредством использования алго- 
ритма взвешенного быстрого объединения, реа- 
лизованного в программе 1.3, требуется линейное 
время. То есть затраты времени на выполнение 
алгоритма связаны с затратами времени на счи- 
тывание ввода постоянным коэффициентом. 
Вряд ли можно было бы рассчитывать найти более 
эффективный алгоритм. 

Немедленно возникает вопрос, можно ли най- 
ти алгоритм, обеспечивающий гарантированную 
линейную производительность. Этот вопрос — ис- 
ключительно трудный, который уже много лет не 
дает покоя исследователям (см. раздел 2.7). Суще- 
ствует множество способов дальнейшего совер- 
шенствования алгоритма взвешенного быстрого 
объединения. В идеале было бы желательно, что- 
бы каждый узел указывал непосредственно на 
корень своего дерева, но за это не хотелось бы 
расплачиваться изменением большого количества 
указателей, как это делалось в случае алгоритма 
быстрого объединения. К идеалу можно прибли- 
зиться, просто делая все проверяемые узлы ука- 
зывающими на корень. На первый взгляд этот 
шаг кажется весьма радикальным, но его легко 
реализовать, а в структуре этих деревьев нет ни- 
чего неприкосновенного: если их можно изме- 
нить, чтобы сделать алгоритм более эффектив- 
ным, это следует сделать. Этот метод, названный 
сжатием пути (раіИ сотргешоп ), можно легко ре- 



РИСУНОК 1.9 СЖАТИЕ ПУТИ 

Пути в деревьях можно сделать еще 
короче, просто делая все 
просматриваемые объекты 
указывающими на корень нового 
дерева для операции объединения, как 
показано в этих двух примерах. В 
примере на верхнем рисунке показан 
результат, соответствующий рис. 

1. 7 . В случае коротких путей сжатие 
пути не оказывает никакого влияния, 
но при обработке пары 1 6, мы делаем 
узлы 1, 5 и 6 указывающими на узел 3, 
в результате чего дерево становится 
более плоским, чем на рис 1.7 В 
примере на нижнем рисунке показан 
результат , соответствующий рис. 

1.8. В деревьях могут появляться 
пути, которые содержат больше 
одной-двух связей, но при каждом их 
прохождении мы делаем их более 
плоскими. В данном случае при 
обработке пары 6 8 мы делаем дерево 
более плоским, делая узш 4, 6 и 8 
указывающими на узел 0. 


ализовать, добавляя еще один проход по каждому пути во время выполнения опера- 


ции ипіоп и устанавливая запись ігі, соответствующую каждой встреченной вершине, 


указывающей на корень. В результате деревья становятся почти совершенно плоски- 
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ми, приближаясь к идеалу, обеспечиваемому алгоритмом 
быстрого поиска, как показано на рис. 1.9. Анализ, уста- 
навливающий этот факт, исключительно сложен, но сам 
метод прост и эффективен. Результат сжатия пути для 
большого примера показан на рис. 1,11. 

Существует множество других способов реализации 
сжатия пути. Например, программа 1.4 — реализация, ко- 
торая сжимает пути, делая каждую связь перескакиваю- 
щей к следующему узлу в пути вверх по дереву (см. рис. 
1.10). Этот метод несколько проще реализовать, чем пол- 
ное сжатие пути (см. упражнение 1.16), но он дает тот же 
конечный результат. Мы называем этот вариант взвешен- 
ным быстрым объединением посредством сжатия пути деле- 
нием пополам ( \ѵещИіесІ диіск-ипіоп тіИ раік сотргеззіоп Ьу 
Наіѵіпр). Какой из этих методов эффективнее? Оправды- 
вает ли достигаемая экономия время, требующееся для 
реализации сжатия пути? Существует ли какая-либо иная 
технология, применение которой следовало бы рассмот- 
реть? Чтобы ответить на эти вопросы, следует вниматель- 
нее присмотреться к алгоритмам и реализациям. Мы вер- 
немся к этой теме в главе 2 в контексте рассмотрения 
основных подходов к анализам алгоритмов. 

Программа 1.4 Сжатие пути делением пополам 

Если циклы {ог в программе 1.3 заменить этим кодом, дли- 
на любого проходимого пути будет делиться пополам. Ко- 
нечный результат этого изменения — превращение деревь- 
ев в почти совершенно плоские после выполнения длинной 
последовательности операций. 

*ог (і = р; і ! = ісі[і] ; і = ісі[і]) 
ісі[і] = ісі [ ісі [ і ] ] ; 

*ог (з = д; з != ісЦз] ; з = ісі [ з 3 ) 

ісі С Л 3 = ісі [ ісі [ з ] ] ; 




РИСУНОК 1.10 СЖАТИЕ ПУТИ 
ДЕЛЕНИЕМ ПОПОЛАМ 

Можно уменьшить длину 
путей вверх по дереву почти 
вдвое, прослеживая две связи 
одновременно и устанавливая 
нижнюю из них указывающей 
на тот же узел, что и 
верхняя , как показано в этом 
примере. Конечный 
результат выполнения такой 
операции для каждого 
проходимого пути 
приближается к результату, 
получаемому в результате 
полного сжатия пути. 



РИСУНОК 1.11 БОЛЬШОЙ ПРИМЕР ВЛИЯНИЯ СЖАТИЯ ПУТИ 

Здесь отображен результат обработки случайных пар 100 объектов алгоритмом взвешенного 
быстрого объединения с сжатием пути. Все узлы этого дерева, за исключением двух, находятся на 
расстоянии одного-двух шагов от корня. 
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Конечный результат применения рассмотренных алгоритмов решения задачи связ- 
ности приближается к наилучшему, на который можно было бы рассчитывать в лю- 
бом практическом случае. Мы имеем алгоритмы, которые легко реализовать и вре- 
мя выполнения которых гарантировано связано с затратами времени на сбор данных 
постоянным коэффициентом. Более того, алгоритмы являются оперативными , рас- 
сматривающими каждое ребро только один раз и использующими объем памяти, ко- 
торый пропорционален количеству объектов; поэтому какие-либо ограничения на 
количество обрабатываемых ими ребер отсутствуют. Результаты экспериментально- 
го исследования, приведенные в табл. 1.1, подтверждают вывод, что программа 1.3 и 
ее варианты с использованием сжатия пути полезны даже в очень больших практи- 
ческих приложениях. Выбор лучшего из этих алгоритмов требует тщательного и слож- 
ного анализа (см. главу 2). 

Таблица 1.1. Результаты экспериментального исследования 
алгоритмов объединения-поиска 

Эти сравнительные значения времени, затрачиваемого на решение случайных задач 
связности с использованием алгоритмов объединения-поиска, демонстрируют 
эффективность взвешенной версии алгоритма быстрого объединения. Дополнительный 
выигрыш благодаря использованию сжатия пути менее очевиден. Здесь М — 
количество случайных соединений, генерируемых до тех пор, пока все N объектов не 
оказываются связанными. Этот процесс требует значительно больше операций //лс/, чем 
операций ипіоп, поэтому быстрое объединение выполняется существенно медленнее 
быстрого поиска. Ни быстрый поиск, ни быстрое объединение не годятся для случая, 
когда значение N очень велико. Время выполнения при использовании взвешенных 
методов явно пропорционально значению А/, поскольку оно уменьшается вдвое при 
уменьшении N вдвое. 


N 

М 

Р 

11 

ѴѴ 

Р 

Н 

1000 

6206 

14 

25 

6 

5 

3 

2500 

20236 

82 

210 

13 

15 

12 

5000 

41913 

304 

1172 

46 

26 

25 

10000 

83857 

1216 

4577 

91 

73 

50 

25000 

309802 



219 

208 

216 

50000 

708701 



469 

387 

497 

1 00000 

1 5451 1 9 



1071 

1106 

1096 

Ключ: 







Р 

быстрый поиск 

(программа 

1.1) 




II быстрое объединение (программа 1.2) 

ѴѴ взвешенное быстрое объединение (программа 1.3) 

Р взвешенное быстрое объединение с сжатием пути (упражнение 1.16) 

Н взвешенное быстрое объединение с делением пополам (программа 1.4) 
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Упражнения 

> 1.4 Приведите содержимое массива ій после выполнения каждой операции ипіоп 
при использовании алгоритма быстрого поиска (программа 1.1) для решения за- 
дачи связности для последовательности 0-2, 1-4, 2-5, 3-6, 0-4 и 1-3. Укажите так- 
же количество обращений программы к массиву М для каждой вводимой пары. 

о 1.5 Выполните упражнение 1.4, но используйте алгоритм быстрого объединения 
(программа 1.2). 

> 1.6 Приведите содержимое массива і(І после выполнения каждой операции ипіоп 
для случаев использования алгоритма взвешенного быстрого объединения приме- 
нительно к примерам, соответствующим рис. 1.7 и 1.8. 

с> 1.7 Выполните упражнение 1.4, но используйте алгоритм взвешенного быстрого 
объединения (программа 1.3). 

О 1.8 Выполните упражнение 1.4, но используйте алгоритм взвешенного быстрого 
объединения с сжатием пути делением пополам (программа 1.4). 

1.9 Определите верхнюю границу количества машинных инструкций, требующихся 
для обработки М соединений 7Ѵ объектов при использовании программы 1.3. На- 
пример, можно предположить, что для выполнения оператора присваивания С++ 
всегда требуется выполнение менее с инструкций, где с — некоторая фиксирован- 
ная константа. 

1.10 Определите минимальное время (в днях), которое потребовалось бы для вы- 
полнения быстрого поиска (программа 1.1) для решения задачи с ІО 9 объектов и 
ІО 6 вводимых пар на компьютере, который может выполнять ІО 9 инструкций в се- 
кунду. Примите, что при каждой итерации внутреннего цикла Гог должно выпол- 
няться не менее 10 инструкций. 

1.11 Определите максимальное время (в секундах), которое потребовалось бы для 
выполнения взвешенного быстрого объединения (программа 1.3) для решения за- 
дачи с ІО 9 объектов и ІО 6 вводимых пар на компьютере, который может выполнять 
ІО 9 инструкций в секунду. Примите, что при каждой итерации внешнего цикла 
\ѵЬі1е должно выполняться не более 100 инструкций. 

1.12 Вычислите среднее расстояние от узла до корня в худшем случае в дереве, 
построенном алгоритмом взвешенного быстрого объединения из 2 п узлов. 

О 1.13 Нарисуйте схему подобную рис. 1.10, но содержащую восемь узлов, а не де- 
вять. 

о 1.14 Приведите последовательность вводимых пар, для которой алгоритм взвешен- 
ного быстрого объединения (программа 1.3) создает путь длиной 4. 

• 1.15 Приведите последовательность вводимых пар, для которой алгоритм взвешен- 
ного быстрого объединения с сжатием пути делением пополам (программа 1.4) 
создает путь длиной 4. 

1.16 Покажите, как необходимо изменить программу 1.3, чтобы реализовать пол- 
ное сжатие пути, при котором каждая операция ипіоп завершается тем, что каждый 
обрабатываемый узел указывает на корень нового дерева. 

О 1.17 Выполните упражнение 1.4, но используйте алгоритм взвешенного быстро- 
го объединения с полным сжатием пути (упражнение 1.16). 
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•• 1.18 Приведите последовательность вводимых пар, для которой алгоритм взвешен- 
ного быстрого объединения с полным сжатием пути (см. упражнение 1.16) созда- 
ет путь длиной 4. 

о 1.19 Приведите пример, показывающий, что изменения быстрого объединения 
(программа 1.2) для реализации полного сжатия пути (см. упражнение 1.16) не до- 
статочно, чтобы гарантировать отсутствие длинных путей в деревьях. 

• 1.20 Измените программу 1.3, чтобы в ней для принятия решения, нужно ли ус- 
танавливать = і или МВ] = і, вместо веса использовалась высота деревьев (са- 
мый длинный путь от любого узла до корня). Экспериментально сравните этот 
вариант с программой 1.3. 

•• 1.21 Покажите, что лемма 1.3 справедлива для алгоритма, описанного в упражне- 
нии 1.20. 

• 1.22 Измените программу 1.4, чтобы она генерировала случайные пары целых чи- 
сел в диапазоне от 0 до N — 1 вместо того, чтобы считывать их из стандартного вво- 
да, и выполняла цикл до тех пор, пока не будет выполнено N— 1 операций ипіоп. 
Выполните программу для значений N — 10 3 , ІО 4 , 10 5 и ІО 6 и выведите общее ко- 
личество ребер, генерируемых для каждого значения N. 

• 1.23 Измените программу из упражнения 1.22, чтобы она выводила в виде гра- 
фика количество ребер, требующихся для соединения N элементов, при 
100<УѴ< 1000. 

•• 1.24 Приведите приближенную формулу для определения количества случайных 
ребер, требующихся для соединения N объектов, как функции N. 

1.4 Перспектива 

Каждый из алгоритмов, рассмотренных в разделе 1.3, кажется определенным усо- 
вершенствованием предыдущего, но, вероятно, процесс был искусственно упрощен, 
поскольку разработка самих этих алгоритмов уже была выполнена рядом исследова- 
телем в течение многих лет (см. раздел используемой литературы). Реализации просты, 
а задача четко определена, поэтому мы можем оценить различные алгоритмы непос- 
редственно, экспериментальным путем. Более того, мы можем подкрепить эти иссле- 
дования, количественно сравнив производительность алгоритмов (см. главу 2). Не все 
задачи, рассмотренные в этой книге, столь же хорошо проработаны, как эта, и мы 
обязательно встретимся с алгоритмами, которые трудно сравнить, и с математичес- 
кими задачами, которые Трудно решить. Мы стремимся принимать объективные на- 
учно обоснованные решения в отношении используемых алгоритмов, изучая свой- 
ства реализаций на примере их выполнения применительно к реальным данным, 
полученным из приложений, или случайным тестовым наборам данных. 

Этот процесс — прототип того, как различные алгоритмы решения фундаменталь- 
ных задач рассматриваются в данной книге. Когда это возможно, мы предпринима- 
ем те же основные шаги, что и при рассмотрении алгоритмов объединения-поиска, 
описанных в разделе 1.2, часть из которых перечислена ниже: 

■ Принятие формулировки полной и частной задачи, включая определение ос- 
новных абстрактных операций, присущих задаче. 
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ш Тщательная разработка краткой реализации для простого алгоритма. 

■ Разработка усовершенствованных реализаций путем пошагового улучшения, 
проверки эффективности идей усовершенствований посредством эмпирическо- 
го или математического анализа либо их обоих. 

■ Определение высокоуровневых абстрактных представлений структур данных 
или алгоритмов посредством операций, которые позволяют эффективно разра- 
батывать усовершенствованные версии на высоком уровне. 

■ Стремление к получению гарантированной производительности в худшем слу- 
чае, когда это возможно, но принятие хорошей производительности при работе 
с реальными данными, когда это доступно. 

Потенциальная возможность впечатляющего повышения производительности ал- 
горитмов решения реальных задач, подобных рассмотренным в разделе 1.2, делает 
разработку алгоритмов увлекательной областью исследования; лишь немногие другие 
области разработки позволяют обеспечить экономию времени в миллионы, миллиарды 
и более раз. 

Что еще важнее, по мере повышения вычислительных возможностей компьюте- 
ров и приложений разрыв между быстрыми и медленными алгоритмами увеличива- 
ется. Новый компьютер может работать в 10 раз быстрее и может обрабатывать в 10 
раз больше данных, чем старый, но при использовании квадратичного алгоритма, 
наподобие быстрого поиска, новому компьютеру потребуется в 10 раз больше време- 
ни для выполнения новой задачи, чем требовалось старому для выполнению старой! 
Вначале это утверждение кажется противоречивым, но его легко подтвердить про- 
стым тождеством (10УѴ) 2 / 10= 10УѴ 2 , как будет показано в главе 2. По мере того как 
вычислительные мощности увеличиваются, позволяя решать все более сложные зада- 
чи, важность использования эффективных алгоритмов также возрастает. 

Разработка эффективного алгоритма приносит моральное удовлетворение и пря- 
мо окупается на практике. Как видно на примере решения задачи связности, просто 
сформулированная задача может приводить к изучению множества алгоритмов, ко- 
торые не только полезны и интересны, но и представляют увлекательную и сложную 
для понимания задачу. Мы встретимся со многими остроумными алгоритмами, кото- 
рые были разработаны за долгие годы для решения множества практических проблем. 
По мере расширения области применения компьютерных решений для научных и 
экономических проблем возрастает важность использования эффективных алгорит- 
мов для решения известных задач и разработки эффективных решений для новых 
проблем. 

Упражнения 

1.25 Предположите, что взвешенное быстрое объединение используется для обра- 
ботки в 10 раз большего количества соединений на новом компьютере, который 
работает в 10 раз быстрее старого. На сколько больше времени потребуется для 
выполнения новой задачи на новом компьютере по сравнению с выполнением 
старой задачи на старом компьютере? 

1.26 Выполните упражнение 1.25 для случая использования алгоритма, для кото- 
рого требуется выполнение УѴ 3 инструкций. 
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1.5 Обзор тем 

В этом разделе приведены краткие описания основных частей книги и раскрытых 
в них отдельных тем с указанием общего подхода к материалу. Выбор тем диктовался 
стремлением осветить как можно больше базовых алгоритмов. Некоторые из осве- 
щенных тем относятся к фундаментальным темам компьютерных наук, которые мы 
подробно изучаем для изучения основных алгоритмов широкого применения. Другие 
рассмотренные алгоритмы относятся к специализированным областям компьютерных 
наук и связанным с ними областям, таким как численный анализ и исследование опе- 
раций — в этих случаях приведенный материал служит введением в эти области че- 
рез исследование базовых методов. 

В первых четырех частях, включенных в этот том, освещен наиболее широко ис- 
пользуемый набор алгоритмов и структур данных, первый уровень абстракции для 
коллекций объектов с ключами, который может поддерживать широкое множество 
важных основополагающих алгоритмов. Рассматриваемые алгоритмы — результаты 
десятков лет исследований и разработки, и они продолжают играть важную роль во 
все расширяющемся применении компьютеров. 

Основные принципы (Часть 1) в контексте данной книги представляют собой ос- 
новные принципы и методологию, используемые для реализации, анализа и сравне- 
ния алгоритмов. Материал, приведенный в главе 1, служит обоснованием изучения 
разработки и анализа алгоритмов; в главе 2 рассмотрены основные методы получе- 
ния информации о количественных показателях производительности алгоритмов. 

Структуры данных (Часть 2) тесно связаны с алгоритмами: необходимо получить 
ясное представление о методах представления данных, которые используются во всех 
остальных частях книги. Изложение материала начинается с введения в базовые 
структуры данных в главе 3, включая анализ, связанные списки и строки; затем в гла- 
ве 5 рассмотрены рекурсивные программы и структуры данных, в частности, дере- 
вья и алгоритмы для манипулирования ими. В главе 4 рассмотрены основные абст- 
рактные типы данных (аЬзІгасІ баіа Іурез — АОТ), такие как стеки и очереди, а также 
реализации с использованием элементарных структур данных. 

Алгоритмы сортировки (Часть 3), предназначенные для упорядочения файлов име- 
ют особую важность. Мы достаточно глубоко рассмотрим ряд базовых алгоритмов, в 
том числе быструю сортировку, сортировку слиянием и поразрядную сортировку. В 
ходе рассмотрения мы встретимся с несколькими связанными задачами, в том числе 
с очередями приоритетов, выбором и слиянием. Многие из этих алгоритмов послу- 
жат основанием для других алгоритмов, рассматриваемых в последующих частях кни- 
ги. 

Алгоритмы поиска (Часть 4), предназначенные для поиска конкретных элементов 
в больших коллекциях элементов, также имеют важное значение. Мы рассмотрим 
основные и расширенные методы поиска с использованием деревьев и преобразова- 
ний численных ключей, в том числе деревья бинарного поиска, сбалансированные 
деревья, хеширование, деревья цифрового поиска и методы, которые подходят для 
очень больших файлов. Мы отметим взаимосвязь между этими методами, приведем 
статистические данные о их сравнительной производительности и установим соответ- 
ствие с методами сортировки. 




Глава Г Введение 


В частях с 5 по 8, которые вынесены в отдельный том, освещены дополнительные 
применения описанных алгоритмов для иного набора данных — второй уровень аб- 
стракций, характерный для ряда важных областей применения. Кроме того, в этих 
частях более глубоко рассмотрены технологии разработки и анализа алгоритмов. 
Многие из затрагиваемых проблем являются предметом предстоящих исследований. 

Алгоритмы обработки строк (часть 5) включают в себя ряд методов обработки пос- 
ледовательностей символов (длинных). Поиск строк ведет к установлению соответ- 
ствия с шаблоном, что, в свою очередь, ведет к синтаксическому анализу. В этой ча- 
сти также рассматриваются и технологии сжатия файлов. Опять-таки, введение в более 
сложные темы выполняется через рассмотрение некоторых простых задач, которые 
важны и сами по себе. 

Геометрические алгоритмы (Часть 6) — это методы решения задач с использова- 
нием точек и линий (и других простых геометрических объектов), которые стали ис- 
пользоваться лишь недавно. Мы рассмотрим алгоритмы для отыскания образующей 
поверхности, определенной набором точек, определения пересечений геометричес- 
ких объектов, решения задач отыскания ближайших точек и для выполнения много- 
мерного поиска. Многие из этих методов прекрасно дополняют более элементарные 
методы сортировки и поиска. 

Алгоритмы обработки графов (Часть 7) полезны при решении ряда сложных и важ- 
ных задач. Общая стратегия поиска в графах разрабатывается и применяется к фун- 
даментальным задачам связности, в том числе к задаче отыскания кратчайшего пути, 
минимального остовного дерева, к задаче о сетевом потоке и к задаче соответствия. 
Унифицированный подход к этим алгоритмам показывает, что все они основываются 
на одной и той же процедуре, и что эта процедура основывается на основном абст- 
рактном типе данных очереди приоритетов. 

Дополнительные темы (Часть 8) устанавливают соответствие между изложенным в 
книге материалом и несколькими связанными областями. Изложение материала на- 
чинается с рассмотрения базовых подходов к разработке и анализу алгоритмов, в том 
числе алгоритмов типа "разделяй и властвуй", динамического программирования, ран- 
домизации и амортизации. Мы рассмотрим линейное программирование, быстрое 
преобразование Фурье, ИР-полноту и другие дополнительные темы для получения 
общего представления о ряде областей, интерес к которым порождается элементар- 
ными проблемами, рассмотренными в этой книге. 

Изучение алгоритмов представляет интерес, поскольку это новая отрасль (почти 
все изученные в этой книге алгоритмы не старше 50 лет, а некоторые были откры- 
ты лишь недавно) с богатыми традициями (некоторые алгоритмы известны уже в те- 
чение тысяч лет). Постоянно делаются новые открытия, но лишь немногие алгорит- 
мы исследованы полностью. В этой книге мы рассмотрим замысловатые, сложные и 
трудные алгоритмы, наряду с изящными, простыми и легко реализуемыми алгорит- 
мами. Наша задача — понять первые и оценить вторые в контексте множества раз- 
личных потенциально возможных приложений. В процессе этого нам предстоит 
исследовать ряд полезных инструментальных средств и выработать стиль алгоритми- 
ческого мышления, который пригодится при решении предстоящих вычислительных 


задач . 



Принципы 

анализа 

алгоритмов 

А нализ — это ключ к пониманию алгоритмов в степе- 
ни, достаточной для их эффективного применения 
при решении практических задач. Хотя у нас нет возмож- 
ности проводить исчерпывающие эксперименты и глубо- 
кий математический анализ каждой программы, мы будем 
работать на основе и эмпирического тестирования, и при- 
ближенного анализа, которые помогут нам изучить ос- 
новные характеристики производительности наших алго- 
ритмов, чтобы можно было сравнивать различные 
алгоритмы и применять их для практических целей. 

Сама идея точного описания производительности 
сложного алгоритма с помощью математического анали- 
за кажется на первый взгляд устрашающей перспективой, 
поэтому мы часто обращаемся к исследовательской лите- 
ратуре за результатами подробного математического изу- 
чения. Хотя целью данной книги не является обзор мето- 
дов анализа или их результатов, для нас важно знать, что 
мы находимся на твердой теоретической почве при срав- 
нении различных методов. Более того, посредством тща- 
тельного применения относительно простых методов о 
многих из алгоритмов можно получить множество под- 
робной информации. Во всей книге мы отводим главное 
место базовым аналитическим результатам и методам ана- 
лиза, особенно тогда, когда это может помочь нам в по- 
нимании внутренней работы фундаментальных алгорит- 
мов. В этой главе наша основная цель — обеспечить среду 
и инструменты, необходимые для работы с алгоритмами. 

Пример в главе 1 показывает среду, иллюстрирующую 
многие из базовых концепций анализа алгоритмов, по- 
этому мы будем часто ссылаться на производительность 


Глава 2 . Принципы анализа алгоритмов 
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алгоритмов ипіоп-ГіпсІ для конкретизации определенных моментов. Несколько новых 
примеров подробно обсуждаются в разделе 2.6. 

Анализ играет определенную роль в каждой точке процесса разработки и реали- 
зации алгоритмов. Прежде всего, как было показано, можно сократить время выпол- 
нения на три-шесть порядков за счет правильного выбора алгоритма. Чем эффектив- 
нее будут рассматриваемые алгоритмы, тем сложнее будет становиться задача выбора 
между ними, поэтому необходимо подробнее изучить их свойства. В погоне за наи- 
лучшим (в некотором точном техническом смысле) алгоритмом мы будем находить и 
алгоритмы, полезные практически, и теоретические вопросы, требующие решения. 

Полный охват методов анализа алгоритмов сам по себе является предметом кни- 
ги (см. раздел ссылок ), однако здесь рассматриваются основы, которые позволят 

■ Проиллюстрировать процесс. 

■ Описать в одном месте используемые математические соглашения. 

■ Обеспечить основу для обсуждения вопросов высокого уровня. 

■ Выработать понимание научной основы выводов, которые делаются при ана- 
лизе алгоритмов. 

Главное, алгоритмы и их анализ зачастую переплетены. В этой книге мы не ста- 
нем тщательно изучать глубокие и сложные математические источники, но проделаем 
достаточно выкладок, чтобы понять, что представляют собой наши алгоритмы и как 
их можно использовать наиболее эффективно. 

2.1. Разработка и эмпирический анализ 

Мы разрабатываем и реализуем алгоритмы, создавая иерархию абстрактных опе- 
раций, которые помогают понять природу решаемых вычислительных проблем. При 
теоретическом изучении данный процесс, хотя он достаточно важен, может увести 
очень далеко от проблем реального мира. Поэтому в данной книге мы стоим на твер- 
дой почве, выражая все рассматриваемые нами алгоритмы реальным языком про- 
граммирования — С++. Такой подход иногда оставляет очень туманное различие 
между алгоритмом и его реализацией, но это лишь небольшая плата за возможность 
работать с конкретной реализацией и учиться на ней. 

Несомненно, правильно разработанные программы на реальном языке представ- 
ляют собой эффективные методы выражения алгоритмов. В этой книге мы изучаем 
большое количество важных и эффективных алгоритмов, кратко и точно реализован- 
ных на С++. Описания на обычном языке или абстрактные высокоуровневые пред- 
ставления зачастую неопределённы и незакончены, а реальные реализации заставля- 
ют нас находить экономные представления, не позволяющие завязнуть в деталях. 

Мы выражаем алгоритмы на С++, но эта книга об алгоритмах, а не о програм- 
мировании на С++. Конечно же, мы рассматриваем реализации на С++ многих важ- 
ных задач, и когда существует удобный и эффективный способ решить задачу именно 
средствами С++, мы пользуемся этим достоинством. Тем не менее, подавляющее 
большинство выводов о реализации алгоритмов применимы к любой современной 
среде программирования. Перевод программ из главы 1 или любых других программ 
в этой книге на другой современный язык программирования — это достаточно про- 
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стая задача. Если в некоторых случаях какой-либо другой язык обеспечивает более 
эффективный механизм решения определенных задач, мы будем указывать на это. 
Наша цель — использовать С++ как средство выражения алгоритмов, а не задержи- 
ваться на вопросах, специфичных для языка. 

Если алгоритм реализуется как часть большой системы, мы используем абстракт- 
ные типы данных или похожий механизм, чтобы иметь возможность изменить алго- 
ритмы или детали реализации после того, как станет ясно, какая часть системы зас- 
луживает наиболее пристального внимания. Однако в самом начале потребуется 
понимание характеристик производительности каждого алгоритма, так как требова- 
ния системы к проектированию могут в значительной степени повлиять на произво- 
дительность алгоритма. Подобные исходные решения при разработке необходимо 
принимать с осторожностью, поскольку в конце часто оказывается, что производи- 
тельность целой системы зависит от производительности некоторых базовых алгорит- 
мов наподобие тех, которые обсуждаются в этой книге. 

Алгоритмы, приведенные в этой книге, нашли эффективное применение во всем 
многообразии больших программ, операционных систем и различных приложениях. 
Наше намерение состоит в том, чтобы описать алгоритмы и уделить внимание их 
динамическим свойствам экспериментальным путем. Для одних приложений приве- 
денные реализации могут подойти точно, для других может потребоваться некоторая 
доработка. Например, при создании реальных систем требуется более защищенный 
стиль программирования, нежели используемый в книге. Необходимо следить за 
состоянием ошибок и сообщать о нем, а, кроме того, программы должны быть раз- 
работаны таким образом, чтобы их изменение было несложным делом, чтобы их мог- 
ли быстро читать и понимать другие программисты, чтобы они хорошо взаимодей- 
ствовали с различными частями системы и сохранялась возможность их переноса в 
другие среды. 

Не отвергая все эти комментарии, все же при анализе каждого алгоритма мы уде- 
ляем внимание, в основном, существенным характеристикам производительности 
алгоритма. Предполагается, что главный интерес будут вызывать наиболее простые 
алгоритмы с наилучшими показателями производительности. 

Для эффективного использования алгоритмов, если нашей целью является реше- 
ние огромной задачи, которую нельзя решить другим способом, или если цель зак- 
лючается в эффективной реализации важной части системы, нам требуется понима- 
ние характеристик производительности алгоритмов. Формирование такого понимания 
и является целью анализа алгоритмов. 

Один из первых шагов для продвижения вперед в понимании производительнос- 
ти алгоритмов — это эмпирический анализ. Если есть два алгоритма для решения од- 
ной задачи, то в методе нет никакого волшебства: мы запустим оба и определим, ко- 
торый выполняется дольше! Это концепция может показаться слишком очевидной, 
чтобы о ней стоило говорить, но, тем не менее, это распространенное упущение в 
сравнительном анализе алгоритмов. Тот факт, что один алгоритм в 10 раз быстрее 
другого, вряд ли ускользнет от взора того, кто ждет 3 секунды при выполнении од- 
ного и 30 секунд — при выполнении другого, однако его легко упустить как неболь- 
шой постоянный фактор при математическом анализе. Когда мы отслеживаем про- 
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изводительность точных реализаций алгоритмов при типовом вводе, мы получаем 
результаты, которые не только являются прямым индикатором эффективности, но и 
содержат информацию, необходимую для сравнения алгоритмов и обоснования при- 
лагаемых математических результатов (см., например, табл. 1.1). Когда эмпирическое 
изучение начинает поглощать значительное количество времени, на помощь прихо- 
дит математический анализ. Ожидание завершения программы в течение часа или 
целого дня вряд ли может рассматриваться как продуктивный способ для понимания 
того, что программа медлительна, особенно в тех случаях, когда прямой анализ мо- 
жет привести к аналогичному результату. 

Первая проблема, возникающая перед нами в эмпирическом анализе — это раз- 
работка корректной и полной реализации. Для некоторых сложных алгоритмов эта 
проблема может оказаться сложным препятствием. В соответствии с этим, обычно тре- 
буется либо с помощью анализа, либо путем экспериментирования с похожими про- 
граммами, установить некоторый признак, насколько эффективной может быть про- 
грамма, до того как тратить усилия на ее реализацию. 

Вторая проблема, с которой мы сталкиваемся при эмпирическом анализе, — это 
определение природы входных данных и других факторов, оказывающих прямое вли- 
яние на производимые эксперименты. Обычно существуют три основных возможно- 
сти: реальные данные, случайные данные и ошибочные данные. Реальные данные позво- 
ляют точно измерить параметры используемой программы; случайные данные 
гарантируют, что наши эксперименты тестируют алгоритм, а не данные; ошибочные 
данные гарантируют, что наши программы могут воспринимать любой направленный 
им ввод. Например, при тестировании алгоритмов сортировки мы запускаем их для 
работы с данными в виде слов в произведении "Моби Дик”, в виде сгенерированных 
случайным образом целых чисел и в виде файлов, содержащих одинаковые числа. 
Проблема определения, какие данные необходимо использовать для сравнения алго- 
ритмов, возникает также и при анализе алгоритмов. 

При сравнении различных реализаций легко допустить ошибки, особенно, если в 
игру вступают разные машины, компиляторы или системы, либо гигантские програм- 
мы с плохо охарактеризованным вводом. Принципиальная опасность при эмпири- 
ческом сравнении программ таится в том, что код для одной реализации может быть 
создан более тщательно, чем для другой. Изобретателю предлагаемого нового алго- 
ритма необходимо обратить внимание на все аспекты его реализации, чтобы не рас- 
ходовать слишком много усилий на создание классического конкурирующего алго- 
ритма. Чтобы быть уверенным в точности эмпирического сравнения алгоритмов, мы 
должны быть уверены, что каждой реализации уделялось одинаковое внимание. 

Один из подходов, который часто применяется в этой книге, как видно из главы 
1, заключается в построении алгоритмов за счет внесения небольших изменений в 
алгоритмы, существующие для данной задачи, поэтому сравнительное изучение про- 
сто необходимо. В более общем смысле, мы стараемся определить важнейшие абст- 
рактные операции и начинаем сравнивать алгоритмы на основе того, как они исполь- 
зуют такие операции. Например, эмпирические результаты, приведенные в табл. 1.1, 
позволяют сравнивать языки программирования и среды, поскольку в них использу- 
ются одинаковые программы, оперирующие одним и тем же набором базовых опе- 


46 


Часть 1 . Анализ 


раций. Для реальной среды программирования эти числа можно превратить в реаль- 
ные времена выполнения. Чаще всего просто требуется узнать, какая из двух про- 
грамм будет быстрее или до какой степени определенное изменение может улучшить 
временные либо пространственные характеристики программы. 

Возможно, наиболее распространенной ошибкой при выборе алгоритма является 
упущение характеристик производительности. Более скоростные алгоритмы, как пра- 
вило, сложнее, чем прямые решения, и разработчики часто предпочитают более мед- 
ленные алгоритмы, дабы избежать дополнительных сложностей. Однако, как это 
было для алгоритмов ипіоп-/іпсІ , можно добиться значительных улучшений с помощью 
даже нескольких строк кода. Пользователи удивительно большого числа компьютер- 
ных систем теряют существенное время, ожидая, пока простые квадратичные алго- 
ритмы решат задачу, в то время как доступные N 1о§УѴ или линейные алгоритмы не- 
намного сложнее, но могут решить задачу быстрее. Когда мы имеем дело с большими 
задачами, у нас нет другого выбора, кроме как искать наилучший алгоритм, что и 
будет показано далее. 

Возможно, вторая наиболее распространенная ошибка при выборе алгоритма, — 
уделять слишком много внимания характеристикам его производительности. Сниже- 
ние времени выполнения программы в 10 раз несущественно, если ее выполнение 
занимает несколько микросекунд. Даже, если программа требует нескольких минут, 
время и усилия, необходимые, чтобы она стала выполняться в 10 раз быстрее, могут 
не стоить того, в особенности, если программа должна применяться лишь несколь- 
ко р^з. Суммарное время, требуемое для реализации и отладки улучшенного алго- 
ритма, может быть значительно выше, чем время, необходимое для выполнения бо- 
лее медленной программы, — в конце концов, часть работы вполне можно доверить 
компьютеру. Хуже того, можно потратить значительное количество времени и уси- 
лий, применяя идеи, которые должны были бы улучшить программу, но, фактичес- 
ки, не делают этого. 

Мы не можем провести эмпирические тесты для программы, которая еще не на- 
писана, но можем проанализировать свойства программы и оценить потенциальную 
эффективность предлагаемого улучшения. Не все предполагаемые усовершенствова- 
ния дают реальный выигрыш в производительности, поэтому нужно понять степень 
улучшений на каждом шаге. Более того, в реализации алгоритма могут быть включе- 
ны параметры, а анализ поможет нам их правильно установить. Наиболее важно то, 
что понимая фундаментальные свойства программ и базовую природу использования 
ими ресурсов, мы имеем потенциальную возможность рассчитать их эффективность 
на компьютерах, которые еще не созданы, или сравнить их с новыми алгоритмами, 
которые еще не написаны. В разделе 2.2 очерчивается методология достижения ба- 
зового понимания производительности алгоритмов. 

Упражнения 

2.1 Перевести программу в главе 1 на другой язык программирования и ответить 

на вопросы упражнения 1.22 для вашей реализации. 
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2.2 Сколько времени займет посчитать до 1 миллиарда (не учитывая переполне- 
ние)? Определить количество времени, необходимое программе 

іпѣ і , ^ , к , соіапй = 0 ; 

±от (і = 0; і < Ы; і++) 

^ог (1 88 0; з < Ы; 3++) 

^ог (к = 0; к < И; к++) 

соипѣ++ ; 

для выполнения в вашей среде для УѴ = 10, 100 и 1000. Если ваш компилятор име- 
ет свойства по оптимизации, которые должны делать программы более эффектив- 
ными, проверьте, дают ли они какой-либо результат для этой программы. 

2.2 Анализ алгоритмов 

В этом разделе мы наметим, в каких рамках математический анализ будет играть 
роль в процессе сравнения производительности алгоритмов, и заложим фундамент, 
необходимый для приложения основных математических результатов к фундамен- 
тальным алгоритмам, которые будут изучаться в течение всей книги. Мы рассмотрим 
основные математические инструменты, используемые для анализа алгоритмов, чтобы 
изучать классические примеры анализа фундаментальных алгоритмов, а также что- 
бы воспользоваться результатами исследовательской литературы, которые помогут в 
понимании характеристик производительности наших алгоритмов. 

Среди причин, по которым выполняется математический анализ алгоритмов, на- 
ходятся следующие: 

■ Для сравнения разных алгоритмов, предназначенных для решения одной за- 
дачи 

■ Для приблизительной оценки производительности программы в новой среде 

■ Для установки значений параметров алгоритма 

В течение книги можно будет найти немало примеров каждой из этих причин. 
Эмпирический анализ подходит для некоторых задач, но математический анализ, как 
будет показано, может оказаться более информативным (и менее дорогим!). 

Анализ алгоритмов может стать довольно-таки интересным делом. Некоторые из 
алгоритмов, приведенных в этой книге, понятны до той степени, когда известны точ- 
ные математические формулы для расчета времени выполнения в реальных ситуаци- 
ях. Эти формулы разработаны путем тщательного изучения программы для нахожде- 
ния времени выполнения в терминах фундаментальных математических величин и 
последующего их математического анализа. С другой стороны, свойства производи- 
тельности других алгоритмов из этой книги не поняты до конца — возможно, пото- 
му, что их анализ ведет к нерешенным математическим проблемам или же известные 
реализации слишком сложны, чтобы их подробный анализ имел смысл, или (скорее 
всего) типы данных для ввода не поддаются точной характеристике. 

Несколько важных факторов точного анализа обычно находятся за пределами 
области действия программиста. Во-первых, программы С++ переводятся 6 машин- 
ные коды для данного типа компьютера, и может оказаться достаточно сложной за- 
дачей определить, сколько времени займет выполнение даже одного оператора С++ 
(особенно в среде, где возможен совместный доступ к ресурсам так, что одна и та же 
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программа может иметь различные характеристики производительности в разное вре- 
мя). Во-вторых, многие программы чрезвычайно чувствительны ко входным дан- 
ным, поэтому производительность может меняться в больших пределах в зависимо- 
сти от них. В-третьих, многие интересующие нас программы еще не поняты до 
конца, поэтому для них пока не существует специальных математических результа- 
тов. И, в заключение, две программы могут совершенно не поддаваться сравнению: 
одна работает эффективно с определенным типом входных данных, другая выпол- 
няется эффективно при других обстоятельствах. 

Несмотря на все эти факторы, часто вполне возможно предсказать, сколько вре- 
мени займет выполнение определенной программы или же понять, что одна про- 
грамма будет выполняться эффективнее другой, но в определенных ситуациях. Бо- 
лее того, часто этих знаний можно достичь, используя относительно небольшой 
набор математических инструментов. Задачей аналитика алгоритмов является полу- 
чить как можно больше информации о производительности алгоритмов; задачей про- 
граммиста — использовать эту информацию при выборе алгоритмов для определен- 
ных приложений. В этой и нескольких следующих разделах будет уделяться внимание 
идеализированному миру аналитика. Чтобы эффективно применять лучшие алгорит- 
мы, иногда просто необходимо посещать такой мир. 

Первый шаг при анализе алгоритма состоит в определении абстрактных операций, 
на которых основан алгоритм, чтобы отделить анализ от реализации. Так, например, 
мы отделяем изучение того, сколько раз одна из реализаций алгоритма ипіоп-/іпсі 
запускает фрагмент кода і = а[і], от подсчета, сколько наносекунд требуется для вы- 
полнения этого фрагмента кода на данном компьютере. Для определения реально- 
го времени выполнения программы на заданном типе компьютера требуются оба 
упомянутых элемента. Первый из них определяется свойствами алгоритма, последний 
— свойствами компьютера. Такое разделение зачастую позволяет сравнивать алгорит- 
мы таким способом, который не зависит от определенной реализации или от опре- 
деленного типа компьютера. 

Хотя количество используемых абстрактных операций может оказаться очень боль- 
шим, в принципе, производительность алгоритма обычно зависит от нескольких ве- 
личин, причем наиболее важные для анализа величины, как правило, определить не- 
сложно. Один из способов их определения заключается в использовании механизма 
профилирования (механизма, доступного во многих реализациях С++, который 
включает в себя счетчик количества выполнений каждой инструкции) для нахождения 
наиболее часто исполняемых частей программы по результатам нескольких пробных 
запусков. Или же, как алгоритмы ипіоп-/іпсі из раздела 1.3, наша реализация может 
быть построена лишь на нескольких абстрактных операциях. В любом случае, анализ 
сводится к определению частоты исполнения нескольких фундаментальных операций. 
Наш образ действия заключается в том, чтобы отыскать приблизительные оценки этих 
величин, будучи уверенными, что для важных программ при необходимости можно 
будет произвести полный анализ. Более того, как будет показано далее, часто мож- 
но воспользоваться приближенными аналитическими результатами в сочетании с эм- 
пирическим изучением, чтобы предсказать результаты достаточно точно. 
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Кроме того, необходимо изучать данные и моделировать их ввод, который ожи- 
дает алгоритм. Чаще всего мы будем рассматривать один из двух подходов к анали- 
зу: или мы будем предполагать, что ввод является случайным, и изучать среднюю про- 
изводительность программы, или же мы будем рассматривать произвольный ввод и 
изучать низкую производительность программы. Процесс описания случайного ввода 
для многих алгоритмов достаточно сложен, но для других алгоритмов он может быть 
прямолинейным и вести к аналитическим результатам, дающим полезную информа- 
цию. Средней может быть математическая функция, не зависящая от данных, для 
которых используется программа, а наихудшей — странная конструкция, которая ни- 
когда не встречается на практике, но в большинстве случаев эти виды анализа пре- 
доставляют полезную информацию о производительности. Например, мы можем 
сравнить аналитические и эмпирические результаты (см. раздел 2.1). Если они совпа- 
дут, мы повысим нашу уверенность в обоих вариантах; если они не совпадут, мы 
сможем узнать больше об алгоритме и модели, изучив несоответствия. 

В следующих трех разделах мы кратко рассмотрим математические инструменты, 
которыми будем пользоваться в течение всей книги. Этот материал находится за пре- 
делами нашей первоначальной узкой задачи, поэтому читатели, хорошо знакомые с 
математической основой, или же те, кто не собирается подробно проверять наши 
математические выражения, связанные с производительностью алгоритмов, могут 
перейти сразу к разделу 2.6 и вернуться к этому материалу там, где это указано в 
книге позже. Математические основы, в общем-то, не сложны для понимания и на- 
столько близки к коренным вопросам разработки алгоритма, что их не стоит игно- 
рировать тем, кто стремится эффективно использовать компьютер. 

Вначале, в разделе 2.3, рассматриваются математические функции, которые потре- 
буются для описания характеристик производительности алгоритмов. Затем, в разделе 
2.4, рассматривается О-нотация (О-поШйоп) и выражение пропорционально (із ргорогііопаі 
ю), которое позволяет опустить детали при математическом анализе. Далее, в разде- 
ле 2.5, изучается понятие рекуррентных соотношений (гесиггепсе геіайопз), основного 
аналитического инструмента, используемого для отражения характеристик произво- 
дительности алгоритма в математических выражениях. Следуя этому обзору, в разделе 
2.6 приводятся примеры, в которых все эти инструменты применяются для анализа 
некоторых алгоритмов. 

Упражнения 

• 2.3 Найти выражение вида с 0 + с^N + с 2 ^Ѵ 2 + с 3 7Ѵ 3 , которое точно описывает вре- 
мя выполнения программы из упражнения 2.2. Сравнить время, задаваемое этим 
выражением, с реальным при N — 10, 100 и 1000. 

• 2.4 Найти выражение, которое точно описывает время выполнения программы 1.1 
в величинах М и N. 

2.3 Рост функций 

Большинство алгоритмов имеют главный параметр УѴ, который значительно влия- 
ет на время их выполнения. Параметр N может быть степенью полинома, размером 
файла при сортировке или поиске, количеством символов в строке или некоторой 
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другой абстрактной мерой размера рассматриваемой задачи: чаще всего, он прямо 
пропорционален величине обрабатываемого набора данных. Когда таких параметров 
существует более одного (например, Ми ІѴв алгоритмах ипіоп-рпй, которые обсуж- 
дались в разделе 1.3), мы часто сводим анализ к одному параметру, задавая его как 
функцию других, или рассматривая одновременно только один параметр (считая ос- 
тальные постоянными), и, таким образом, ограничивая себя рассмотрением только 
одного параметра УѴ без потерь общности. Нашей целью является выражение ресур- 
сных требований программ (как правило, времени выполнения) в зависимости от УѴ 
с использованием математических формул, которые максимально просты и справед- 
ливы для больших значений параметров. Алгоритмы в этой книге обычно имеют вре- 
мя выполнения, пропорциональное одной из следующих функций: 

1 Большинство инструкций большинства программ запускается один или 

несколько раз. Если все инструкции программы обладают таким свой- 
ством, мы говорим, что время выполнения программы постоянно. 

1о§ УѴ Когда время выполнения программы является логарифмическим , програм- 
ма становится медленнее с ростом УѴ. Такое время выполнения обычно 
присуще программам, которые сводят большую задачу к набору меньших 
задач, уменьшая на каждом шаге размер задачи на некоторый постоян- 
ный фактор. В интересующей нас области мы будем рассматривать вре- 
мя выполнения, являющееся небольшой константой. Основание логариф- 
ма изменяет константу, но не намного: когда N — тысяча, 1о§УѴ равно 3, 
если основание равно 10, или порядка 10, если основание равно 2; когда 
УѴ равно миллиону, значения !о§УѴ только удвоятся. При удвоении 1о§УѴ 
растет на постоянную величину, а удваивается лишь тогда, когда УѴ дости- 
гает УѴ 2 . 

Когда время выполнения программы является линейным , это обычно зна- 
чит, что каждый входной элемент подвергается небольшой обработке. 
Когда УѴ равно миллиону, такого же и время выполнения. Когда УѴ удва- 
ивается, то же происходит и со временем выполнения. Эта ситуация оп- 
тимальна для алгоритма, который должен обработать УѴ вводов (или про- 
извести УѴ выводов). 

Время выполнения, пропорциональное УѴ 1о§УѴ, возникает тогда, когда ал- 
горитм решает задачу, разбивая ее на меньшие подзадачи, решая их не- 
зависимо и затем объединяя решения. Из-за отсутствия подходящего при- 
лагательного ( ’линерифмическии '?) мы просто говорим, что время 
выполнения такого алгоритма равно УѴ 1о§УѴ Когда УѴ равно 1 миллион, 
УѴ1о§УѴ около 20 миллионов. Когда УѴ удваивается, тогда время выполне- 
ния более чем удваивается. 

Когда время выполнения алгоритма является квадратичным , он полезен 
для практического использования для относительно небольших задач. 
Квадратичное время выполнения обычно появляется в алгоритмах, кото- 
рые обрабатывают все пары элементов данных (возможно, в цикле двой- 
ного уровня вложенности). Когда УѴ равно 1 тысяче, время выполнения 
равно 1 миллиону. Когда УѴ удваивается, время выполнения увеличивается 
вчетверо. 


УѴ 


УѴІо^УѴ 


УѴ 
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7Ѵ 3 Похожий алгоритм, который обрабатывает тройки элементов данных 

(возможно, в цикле тройного уровня вложенности), имеет кубическое вре- 
мя выполнения и практически применим лишь для малых задач. Когда N 
равно 100, время выполнения равно 1 миллиону. Когда N удваивается, 
время выполнения увеличивается в восемь раз. 

2 м Лишь несколько алгоритмов с экспоненциальным временем выполнения 

имеет практическое применение, хотя такие алгоритмы возникают есте- 
ственным образом при попытках прямого решения задачи. Когда 7Ѵ рав- 
но 20, время выполнения равно 1 миллиону. Когда N удваивается, время 
выполнения учетверяется! 

Время выполнения определенной программы, скорее всего, будет некоторой кон- 
стантой, умноженной на один из этих элементов ( главный член) плюс меньшие слага- 
емые. Значения постоянного коэффициента и остальных слагаемых зависят от ре- 
зультатов анализа и деталей реализации. В грубом приближении коэффициент при 
главном члене связан с количеством инструкций во внутреннем цикле: на любом 
уровне разработки алгоритма разумно сократить количество таких инструкций. Для 
больших N доминирует эффект главного члена, для малых ТѴили для тщательно раз- 
работанных алгоритмов вклад дают и другие слагаемые, поэтому сравнение алгорит- 
мов становится более сложным. В большинстве случаев мы будем называть время 
выполнения программ просто 'линейным", "УѴ 1о§УѴ", "кубическим" и т.д. Обоснова- 
ние этого подробно приводится в разделе 2.4. 

В итоге, чтобы уменьшить общее время выполнения программы, мы минимизи- 
руем количество инструкций во внутреннем цикле. Каждую инструкцию необходимо 
подвергнуть исследованию: является ли она необходимой? Существует ли более эф- 
фективный способ выполнить такую же задачу? Некоторые программисты считают, 
что автоматические инструменты, содержащиеся в современных компиляторах, мо- 
гут создавать наилучший машинный код; другие утверждают, что наилучшим спосо- 
бом является написание внутренних циклов вручную на машинном языке, или ассем- 
блере. Обычно мы будем останавливаться, доходя до рассмотрения оптимизации на 
таком уровне, хотя иногда будем указывать, сколько машинных инструкций требу- 
ется для выполнения определенных операций. Это потребуется для того, чтобы по- 
нять, почему на практике одни алгоритмы могут оказаться быстрее других. 

Для малых задач в том, каким методом мы воспользуемся, практически нет раз- 
личий — быстрый современный компьютер все равно выполнит задачу мгновенно. 
Но по мере роста задачи, числа, с которыми мы имеем дело, становятся огромными, 
как продемонстрировано в табл. 2.1. Когда количество исполняемых инструкций в 
медленном алгоритме становится по-настоящему большим, время, необходимое для 
их выполнения, становится недостижимым даже для самых быстрых компьютеров. На 
рис. 2.1 приведен перевод большого количества секунд в дни, месяцы, годы и т.д.; в 
табл. 2.2 показаны примеры того, как быстрые алгоритмы имеют больше возможно- 
стей помочь решить задачу, не вовлекая огромные времена выполнения, нежели 
даже самые быстрые компьютеры. 
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РИСУНОК 2.1 ПЕРЕВОД СЕКУНД 

Огромная разница между такими числами , как ІО 4 и 10 8 
становится более очевидной , когда мы рассмотрим их 
как количество секунд и переведем в привычные единицы 
измерения. Мы можем позволить программе выполняться 
2.8 часа, но вряд ли мы сможем созерцать программу, 
выполнение которой займет 3. 1 года. Поскольку 2 10 
примерно равно 10 3 , этой таблицей можно 
воспользоваться и для перевода степеней 2. Например, 2 32 
секунд это примерно 124 года. 


секунды 


ІО 2 

1.7 минуты 

ю 4 

2.8 часа 

10 5 

1.1 дня 

ІО 6 

1.6 недели 

ІО 7 

3.8 месяца 

ІО 8 

3.1 года 

ІО 9 

3.1 десятилетия 

ІО 10 

3.1 столетия 

ІО 11 

никогда 


Таблица 2.1 Значения часто встречающихся функций 

В этой таблице показаны относительные величины некоторых функций, которые будут 
часто встречаться нам при анализе алгоритмов. Очевидно, доминирующей является 
квадратичная функция, особенно для больших значений Л/, а значения между 
меньшими функциями оказываются не такими, как можно было ожидать для малых N. 
Например, N 3/2 больше, чем N Ід 2 Л/ для огромных значений Л/, однако для небольших N 
наблюдается обратная ситуация. Точное время выполнения алгоритма должно включать в 
себя линейную комбинацию этих функций. Мы можем легко отделить быстрые алгоритмы 
от медленных из-за огромной разницы между, например, ІдЛ/ и N или N и Л/ 2 , но 
различие между двумя быстрыми алгоритмами может потребовать тщательного изучения. 



л/лг 

N 

т 

ЩІ&Я) 2 

м Ѵ2 

И 2 

3 

3 

10 

33 

110 

32 

100 

7 

10 

100 

664 

4414 

1000 

10000 

10 

32 

1000 

9966 

99317 

31623 

1 000000 

13 

100 

10000 

1 32877 

1 765633 

1 000000 

1 00000000 

17 

316 

1 00000 

1 660964 

27588016 

31 622777 

1 0000000000 

20 

1000 

1 000000 

19931569 

397267426 

1 000000000 

1 000000000000 


Таблица 2.2 Время для решения гигантских задач 

Для многих приложений нашим единственным шансом решить гигантскую задачу 
является использование эффективного алгоритма. В этой таблице показано 
минимальное количество времени, необходимое для решения задач размером 1 
миллион и 1 миллиард с использованием линейных, N Іод N и квадратичных алгоритмов на 
компьютерах с быстродействием 1 миллион, 1 миллиард и 1 триллион инструкций в 
секунду. Быстрый алгоритм позволяет решить задачу на медленной машине, но быстрая 
машина не может помочь, когда используется медленный алгоритм. 


Операций 
в секунду 

Размер задачи 1 миллион 

Размер задачи 1 миллиард 

N 

УѴ1§УѴ 

УѴ 2 

N 

7Ѵ1§ДГ 

И 2 

ю 6 

секунд 

секунд 

недель 

часов 

часов 

никогда 

ІО 9 

мгновенно 

мгновенно 

часов 

секунд 

секунд 

десятилетий 

ю ' 2 

мгновенно 

мгновенно 

секунд 

мгновенно 

мгновенно 

недель 











Глава 2 . Принципы анализа алгоритмов 


53 


При анализе алгоритмов возникает еще несколько функций. Например, алгоритм 
с УѴ 2 вводами, имеющий время выполнения УѴ 3 можно рассматривать, как УѴ 3/2 алго- 
ритм. Кроме того, некоторые алгоритмы, разбиваемые на две подзадачи, имеют вре- 
мя выполнения, пропорциональное УѴ1о§ 2 УѴ Из табл. 2.1 очевидно, что обе эти фун- 
кции ближе к УѴІо^УѴ, чем УѴ 2 . 

Логарифмическая функция играет специальную роль в разработке и анализе ал- 
горитмов, поэтому ее стоит рассмотреть подробнее. Поскольку мы часто имеем дело 
с аналитическими результатами, в которых опущен постоянный множитель, мы ис- 
пользуем запись "1о§ УѴ”, опуская основание. Изменение основания логарифма меня- 
ет значение логарифма лишь на постоянный множитель, однако, в определенном 
контексте возникают специальные значения основания логарифма. В математике на- 
столько важным является натуральный логарифм (основание е = 2.71828...), что распро- 
странено следующее сокращение: 1о&,УѴ = 1п УѴ. В вычислительной технике очень ва- 
жен двоичный логарифм (основание равно 2), поэтому используется сокращение 

1о& УѴ= 1 8 УѴ 

Наименьшее целое число, большее 1§УѴ, равно количеству бит, необходимых для 
представления УѴ в двоичном формате; точно так же наименьшее целое, большее 
Іо&оУѴ, — это количество цифр, необходимое для представления УѴ в десятичном фор- 
мате. Оператор С++ 

±от (ІдЫ = 0; N > 0; 1дЫ++, N /= 2) ; 

дает простой способ подсчета наименьшего целого, большего 1§УѴ Похожий метод для 
вычисления этой функции 

ііог (ІдЫ = 0, Ѣ = 1 ; ѣ < Ы; 1дЫ++, ѣ += ѣ) ; 

В нем утверждается, что 2 Л <УѴ< 2 Л+1 , когда п — это наименьшее целое, большее 

1§УѴ 

Иногда мы итерируем логарифм: мы делаем это для больших чисел. Например, 
1§ 1§ 2 256 = 1§ 256 = 8. Как иллюстрирует данный пример, обычно мы можем считать 
выражение 1о§ 1о§ УѴ константой для практических целей, поскольку оно мало даже 
для очень больших УѴ. 

Кроме того, часто мы сталкиваемся с некоторыми специальными функциями и 
математической записью из классического анализа, которые полезны для краткого 
описания свойств программ. В табл. 2.3 собраны наиболее используемые из этих фун- 
кций; в следующих параграфах мы кратко обсудим их, а также некоторые наиболее 
важные свойства. 

Наши алгоритмы и их анализ часто сталкиваются с дискретными единицами, по- 
этому часто требуются специальные функции, переводящие действительные числа в 
целые: 

|_х] : наибольшее целое, меньшее или равное х 

Гхі : наименьшее целое, большее или равное х. 

Например, 1_ті] и [е] оба равны 3, а Гі§(УѴ+1)1 — это количество бит, необходимое 
для двоичного представления числа УѴ. Другое важное применение этих функций воз- 
никает в том случае, когда необходимо поделить набор из УѴ объектов надвое. Этого 
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нельзя сделать точно, если N является нечетным, поэто- 
му для точности мы можем создать один поднабор, со- 
держащий Ѵи/і\ объектов, а второй, — [N/2] объек- 
тов. Если N четно, тогда размеры обоих поднаборов 
равны ( Ы/2} = Г лу 2 І ); если же N нечетно, тогда их 
размер отличается на единицу (І.АУ2] + 1 = ГЛУ2І). В 
С++ можно напрямую подсчитать значения этих фун- 
кций при выполнении операций над целыми числами 
(например, если N>0, тогда N/2 равно |_УѴ/2_|, а 
N - (N/2) равно ГУѴ/2І), а при операциях над числами 
с плавающей точкой можно воспользоваться функция- 
ми Поог и сеіі из заголовочного файла таіЬ.Ь. 

При анализе алгоритмов часто возникает дискрети- 
зованная версия функции натурального логарифма, 
называемая гармоническими числами. УѴ- тое гармоничес- 
кое число определяется выражением 



РИСУНОК 2.2 
ГАРМОНИЧЕСКИЕ ЧИСЛА 


Гармонические числа 
представляют собой 
приближенные значения 
элементов площади поді кривой 
1/х. Постоянная у показывает 
разницу между Н ы и 




1 

+ - + 
3 




Натуральный логарифм 1п УѴ — это значение площади под кривой между 1 и УѴ; 
гармоническое число Н / — это площадь под ступенчатой функцией, которую можно 
определить, вычисляя значения функции 1/х для целых чисел от 1 до УѴ. Зависимость 
показана на рис. 2.2. Формула 


Я* - 1пУѴ + у + 1 /(12УѴ) 

где у = 0.57721... (эта константа называется постоянной Эйлера ), дает отличное прибли- 
жение для Нн. В отличие от Г ІбіѴІ и для вычисления Нц лучше воспользоваться 

библиотечной функцией Іо§, а не подсчитывать его непосредственно из определения. 


Таблица 2.3 Специальные функции и постоянные 

В этой таблице собрана математическая запись для функций и постоянных, которые 
часто появляются в формулах, описывающих производительность алгоритмов. Формулы 
для приближенных значений можно при необходимости уточнить путем учета 
следующих слагаемых разложения (см. раздел ссылок). 


Функция 

Название 

Типовое значение 

ы 

функция округления снизу 

І3.14І = 3 

ы 

функция округления сверху 

Г 3. 14І = 4 


двоичный логарифм 

1§ 1024 = 10 

Рм 

числа Фибоначчи 

>1 

О 

II 

С-/* 


гармонические числа 

Я, о = 2.9 

УѴ! 

факториал 

10! = 3628800 

І8 (ЛИ) 


1§ (100!) = 520 


Приближение 

х 

х 

1 .44 1п N 

Ф"Ы : 5 

1п УѴ + у 

(т ы 

N 1§УѴ — 1.44 N 


е = 2.71828... ф = (1+ ^5 )/ 2 = 1.61803... 1§ <? = 1 / 1п 2 = 1.44269... 

у = 0.57721... 1п 2 = 0.693147... 


Последовательность чисел 

О 1 1 2 3 5 8 13 21 34 55 89 144 233 377... 
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определенная формулой 

Ры = Ры- 1 + ^ѵ -2 , где УѴ > 2, а /о = 0 и Г { = 1 

известна, как числа Фибоначчи. Эти числа имеют множество интересных свойств. На- 
пример, отношение двух последовательных чисел приближенно равно золотому сече- 
нию ($оШеп гаііо) ф = (1+л/з ) /2 « 1.61803... . Более подробный анализ показывает, что 

Гн равно значению выражения ф 1 * /^[з , округленному до ближайшего целого числа. 

При анализе алгоритмов часто встречается также функция факториал N1. Как и 
экспоненциальная функция, факториал возникает при лобовом решении задач и ра- 
стет слишком быстро, чтобы такие решения представляли практический интерес. Она 
также возникает при анализе алгоритмов, поскольку представляет собой количество 
способов упорядочения N объектов. Для аппроксимации N1 используется формула 
Стирлинга : 

\ Ѣ N\ = N\ Ѣ N- ЛЧ 8 е+ 1 8л /2 Ш 

Например, формула Стирлинга показывает нам, что количество бит в представле- 
нии числа N ! примерно равно N 1§М 

Большинство рассматриваемых в этой книге формул выражается посредством не- 
скольких функций, которые мы рассмотрели в этой главе. Однако при анализе алго- 
ритмов может встретиться множество других специальных функций. Например, клас- 
сическое биномиальное распределение и распределение Пуассона играют важную роль при 
разработке и анализе некоторых фундаментальных поисковых алгоритмов, которые 
будут рассматриваться в главах 14 и 15. Функции, не приведенные здесь, обсуждаются 
по мере их появления. 

Упражнения 

> 2.5 Для каких значений N справедливо 1 0 N 1§/Ѵ > 2 N 2 ? 

> 2.6 Для каких значений N выражение /V 3/2 имеет значение в пределах от /Ѵ( I ц Л') 2 / 2 
до 27Ѵ(1 8 А г ) 2 ? 

2.7 Для каких значений N справедливо + 10УѴ ? 

о 2.8 Для какого наименьшего значения N справедливо 1о§ю Іо^оУѴ > 8? 

о 2.9 Докажите, что [_1§УѴ_| + 1 — это количество бит, необходимое для представле- 
ния числа N в двоичной форме. 

2.10 Добавьте в табл. 2.2 колонки для іѴ(1§УѴ) 2 и 7Ѵ 3/2 . 

2.11 Добавьте в табл. 2.2 строки для 10 7 и 10 8 инструкций в секунду. 

2.12 Нацишите на С++ функцию, которая подсчитывает 7/дг, используя функцию 
1о§ из стандартной математической библиотеки. 

2.13 Напишите эффективную функцию на С++, подсчитывающую 1§ ЛП. Не ис- 
пользуйте библиотечную функцию. 
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2.14 Сколько цифр в десятичном представлении числа 1 миллион факториал? 

2.15 Сколько бит в двоичном представлении числа 1§(ЛМ)? 

2.16 Сколько бит в двоичном представлении 

2.17 Приведите простое выражение для 1_1§/у_]. 

о 2.18 Приведите наименьшие значения УѴ, для которых [_#дг] = /, где 1 < /< 10. 

2.19 Приведите наибольшее значение 7Ѵ, для которого можно решить задачу, тре- 
бующую выполнения /(ТУ) инструкций, на машине с быстродействием ІО 9 опера- 
ций в бекунду для следующих функций /(ТѴ): ТѴ 3/2 , ТѴ 5/4 , 2 ТѴЯуѵ, N 1§ТѴ 1§ 1§УѴ и 

тѵ 2 \%м 

2.4 О-нотация 

Математическая запись, позволяющая отбрасывать подробности при анализе ал- 
горитмов, называется О-нотацией. Она определена следующим образом. 

Определение 2.1 Говорят, что функция %(№) является 0(/ (14) ), если существуют 

такие постоянные с о и Ы 0 , что < с 0 /(1 V) для всех N > ТѴ^. 

О-нотация используется по трем основным причинам: 

■ Чтобы ограничить ошибку, возникающую при отбрасывании малых слагаемых 
в математических формулах. 

■ Чтобы ограничить ошибку, возникающую тогда, когда не учитываются те час- 
ти программы, которые дают малый вклад в анализируемую сумму. 

■ Чтобы классифицировать алгоритмы согласно верхней границе их общего вре- 
мени выполнения. 

Третье назначение О-нотации рассматривается в разделе 2.7, а два других кратко 
обсуждаются ниже. 

Постоянные с 0 и УѴ 0 , не выраженные явно в О-нотации, часто скрывают практи- 
чески важные подробности реализации. Очевидно, что выражение "алгоритм имеет 
время выполнения 0(/(УѴ)) м ничего не говорит о времени выполнения при 7Ѵ, мень- 
шем Ао , а с 0 может иметь большое значение, необходимое, чтобы обойти случай не- 
желательной низкой производительности. Нам хотелось бы использовать алгоритм, 
время выполнения которого составляет ]Ч 7 наносекунд, а не 1о§ N столетий, но мы 
не можем сделать такого выбора на основе О- нотации. 

Часто результаты математического анализа являются не точными, но приближен- 
ными в точном техническом смысле: результат представляет собой выражение, содер- 
жащее последовательность убывающих слагаемых. Так же, как мы интересуемся, в 
основном, внутренним циклом программы, мы интересуемся больше всего главными 
членами (наибольшими по величине слагаемыми) математического выражения. О-но- 
тация позволяет рассматривать главные члены и опускать меньшие слагаемые при 
работе с приближенными математическими выражениями, а также записывать крат- 
кие выражения, дающие точные приближения для анализируемых величин. 

Некоторые из основных действий, которыми мы пользуемся при работе с выра- 
жениями, содержащими О-нотацию, являются предметом упражнений 2.20—2.25. 
Многие из этих действий интуитивно понятны, а склонные к математике читатели 
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могут с интересом выполнить упражнение 2.21, где требуется доказать обоснован- 
ность базовых операций из определения. Существенно то, что из этих упражнений 
следует, что можно раскрывать скобки в алгебраических выражениях с О-нотацией 
так, как, если бы она в них не присутствовала, а затем отбрасывать все слагаемые, 
кроме наибольшего. Например, если требуется раскрыть скобки в выражении 

(IV + 0( 1))(УѴ + 0( 1о§ IV) + 0(1)), 
то мы получим шесть слагаемых 

УѴ 2 + О(ІѴ) + 0(ЛП о§ IV) + 0(1о§ (V) + О(ІѴ) + 0(1). 

Однако мы можем отбросить все слагаемые кроме наибольшего из них, оставив 
только 

N 2 + 0( N 1о§ IV). 

То есть, N 2 является хорошей аппроксимацией этого выражения, когда N велико. 
Эти действия интуитивно ясны, но О- нотация позволяет выразить их с математичес- 
кой точностью. Формула с одним О-слагаемым называется асимптотическим выраже- 
нием (азутріоііс ехргеззіоп). 

В качестве более важного примера предположим (после некоторого математичес- 
кого анализа), что определенный алгоритм имеет внутренний цикл, итерируемый в 
среднем ИН М раз, внешнюю секцию, итерируемую N раз, и некоторый код инициа- 
лизации, исполняемый единожды. Далее предположим, что мы определили (после 
тщательного исследования реализации), что каждая итерация внутреннего цикла тре- 
бует а 0 наносекунд, внешняя секция — а\ наносекунд, а код инициализации — а 2 на- 
носекунд. Тогда среднее время выполнения программы (в наносекундах) равно 

2#о N Нц + а\N + а 2 . 

Поэтому для времени выполнения справедлива следующая формула: 

2яо N 7/дг + <9(УѴ). 

Более простая формула важна, поскольку из нее следует, что при больших N нет 
необходимости искать значения величин а\ и а 2 для аппроксимации времени выпол- 
нения. В общем случае, в точном математическом выражении для времени выполне- 
ния может содержаться множество других слагаемых, ряд из которых трудно анали- 
зировать. 0-нотация обеспечивает способ получения приближенного ответа для 
больших N без привлечения слагаемых подобного рода. 

Продолжая данный пример, можно воспользоваться 0-нотацией, чтобы выразить 
время выполнения с помощью известной функции, ІпТѴ. Благодаря О- нотации, при- 
ближенное выражение из табл. 2.3 можно записать как Ня = ІпТѴ + 0(1). Таким об- 
разом, аоІѴІпІѴ + О(ІѴ) — это асимптотическое выражение для общего времени вы- 
полнения алгоритма. То есть, при больших N оно будет близко к легко вычисляемому 
выражению 2 д 0 ЛНпіѴ. Постоянный множитель зависит от времени, которое требует- 
ся для выполнения инструкций внутреннего цикла. 

Более того, нам не нужно знать значения ао, чтобы предсказать, что время выпол- 
нения для ввода размером 2 N будет вдвое больше, чем для ввода размером N, для 
больших N, поскольку 
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2а 0 (2А01п(2Л0 + О(2Л0 _ 21п(2Л0 + О(1) = ( 1 ' 

2а й И 1п N + 0(Ы) ~ 1пЛГ + 0(1) ~ (іо§ІѴ\ 


Таким образом, асимптотическая формула позволяет нам делать точные прогно- 
зы, не вдаваясь в подробности реализации или анализа. Отметьте, что такое предска- 
зание не было бы возможным, если бы О-аппроксимация была задана только для 
главного члена. 


Намеченный способ рассуждений позволяет ограничиться только главным членом 
при сравнении или предсказании времени выполнения алгоритмов. Зачастую мы под- 
считываем время выполнения константно-временных операций и хотим ограничить- 
ся только главным членом, подразумевая неявно, что точный анализ наподобие при- 
веденного выше можно всегда провести, если потребуется. 

Когда функция /(АО является асимптотически большой по сравнению с другой фун- 
кцией #(Л0 (т.е. #(Л0 / /(АО — > 0, когда N — > ©о), мы иногда в книге используем тер- 
минологию (бесспорно нетехническую) порядка /(АО, подразумевая /(АО + 0(%(Ы)). 
То, что, кажется, теряется в математической точности, компенсируется доходчивос- 


тью, так как нас больше интересует производительность алгоритмов, а не математи- 
ческие детали. В таких случаях мы можем быть уверены в том, что при больших зна- 
чениях N (если даже не при всех значениях) исследуемая величина будет близка по 
величине к /(АО* Например, даже если мы 


знаем, что величина равна N ^ - 1) / 2, мы 
можем говорить о ней, как А г2 / 2. Такой спо- 
соб выражения результатов становится по- 
нятным быстрее, чем подробный и точный 
результат, и отличается от правильного зна- 
чения всего лишь на 0.1 процента для, на- 
пример, N = 1000. Потеря точности в данном 
случае намного меньше, чем при распрост- 
раненном использовании О(/(А0). Наша цель 
состоит в том, чтобы быть одновременно и 


1 

нет влияния 

І8^Ѵ 

небольшой рост 

N 

удвоение 

N \%]Ѵ 

чуть более, чем удвоение 

УѴ 3/2 

множитель 2 Ѵ 2 

ТУ 2 

множитель 4 

А г3 

множитель 8 

2 * 

в квадрате 


точными, и краткими при описании произ- 
водительности алгоритмов. 

В похожем ключе мы иногда говорим, что 
время выполнения алгоритма пропорциональ- 
но /(АО, т.е. можно доказать, что оно равно 
с/( АО + #(А0, где #(А0 асимптотически мало 
по сравнению с /(АО. В рамках такого под- 
хода мы можем предсказать время выполне- 
ния для 2А^, если оно известно для Л^, как в 
примере, который обсуждался выше. На рис. 
2.3 приводятся значения множителей для та- 
ких прогнозов поведения функций, которые 
часто возникают во время анализа аглорит- 
мов. В соединении с эмпирическим изучени- 
ем (см. раздел 2.1) данный подход освобож- 


РИСУНОК 2.3 ВЛИЯНИЕ УДВОЕНИЯ 
РАЗМЕРОВ ЗАДАЧИ НА ВРЕМЯ 
ВЫПОЛНЕНИЯ. 

Прогнозирование влияния удвоения размеров 
задачи на время выполнения является 
простой задачей , когда время выполнения 
пропорционально одной из простых функций , 
как показано в таблице. В теории это 
влияние можно вычислить только когда N 
велико , но данный метод на удивление 
эффективен. И наоборот , быстрый метод 
определения функционального роста времени 
выполнения программы заключается в 
запуске программы , удвоении количество 
вводов для максимально возможного И, а 
затем оценка нового времени выполнения 
согласно приведенной таблице. 
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дает от определения постоянных величин, завися- 
щих от реализации. Или же, применяя его в об- 
ратном направлении, мы можем часто разрабо- 
тать гипотезу о функциональной зависимости 
времени выполнения программы, изучив, как 
меняется время выполнения при увеличении N в 
два раза. 

Различия между О-границами пропорционально 
(із ргорогііопаі іо) и порядка (аЬоиі) проиллюстриро- 
ваны на рис. 2.4 и 2.5. О-нотация используется, 
прежде всего, для исследования фундаменталь- 
ного асимптотического поведения алгоритма; 
пропорционально требуется при экстраполяции 
производительности на основе эмпирического 
изучения, а порядка — при сравнении производи- 
тельности разных алгоритмов или при предсказа- 
нии абсолютной производительности. 

Упражнения 

> 2.20 Докажите, что 0(1) — то же самое, что и 
0(2). 

2.21 Докажите, что в выражениях с О-нотаци- 
ей можно производить любое из перечислен- 
ных преобразований 

/(УѴ)-> 0(/(УѴ)), 
сО(/(Ю)^ 0(/(7Ѵ)), 

«с/(Л0)-> О(/(Л0), 

/(УѴ) -т = 0(Н(Щ ->/(УѴ) = т + 0(Л(Л)), 

о(/^))ош)) -> оіпюаю), 

0(/(УѴ))+ О(^УѴ))->0О*У\О) 

если /(УѴ) = ООКУѴ)). 



РИСУНОК 2.4 ОГРАНИЧЕНИЕ 
ФУНКЦИИ С ПОМОЩЬЮ 
О-АППРОКСИМАЦИИ 

На этой схематической диаграмме 
осциллирующая кривая представляет 
собой функцию 8(И), которую мы 
пытаемся аппроксимировать; гладкая 
черная кривая представляет собой 
другую функцию, /(И), которая 
используется для аппроксимации , а 
гладкая серая кривая является 
функцией с/(1 V) с некоторой 
неопределенной постоянной с. 
Вертикальная прямая задает значение 
УѴ 0 , указывающее, что аппроксимация 
справедлива для N > тѴ () . Когда мы 
говорим, что %(И) — 0(/(И)), мы 
ожидаем лишь то, что значение 
функции §(И) находится ниже 
некоторой кривой, имеющей форму 
функции /(И), и правее некоторой 
вертикальной прямой. Поведение 
функции /(Ы) может быть любым 
(например, она не обязательно должна 
быть непрерывной). 


о 2.22 Покажите, что 
(УѴ+ 1 )(Я*+ 0(1)) = N ІпУѴ + О(УѴ). 

2.23 Покажите, что N 1пУѴ= 0(УѴ 3/2 ). 

• 2.24 Покажите, что М м ~ 0(а м ) для любого М и любого постоянного а > 1. 


• 2.25 Докажите, что 


N 

N + 0(1) 



2.26 Предположим, что Н к = N. Найдите приближенную формулу, которая выра- 
жает к как функцию N. 

• 2.27 Предположим, что 1§(&!) = N. Найдите приближенную формулу, которая вы- 
ражает к как функцию N. 
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о 2.28 Известно, что время выполнения одного 
алгоритма равно 0(1ѴІо%ІѴ), а другого — 
<9(УѴ 3 ). Что данное выражение неявно говорит 
об относительной производительности алго- 
ритмов? 

о 2.29 Известно, что время выполнения одного 
алгоритма всегда порядка N 1о§УѴ, а другого — 
0(N 3 ). Что данное выражение неявно говорит 
об относительной производительности алго- 
ритмов? 



о 2.30 Известно, что время выполнения одного 
алгоритма всегда порядка N 1о§УѴ, а другого — 
всегда порядка УѴ 3 . Что данное выражение не- 
явно говорит об относительной производи- 
тельности алгоритмов? 

о 2.31 Известно, что время выполнения одного 
алгоритма всегда пропорционально УѴІО&УѴ, а 
другого — всегда пропорционально Л^ 3 . Что 
данное выражение неявно говорит об относи- 
тельной производительности алгоритмов? 

о 2.32 Выведите значения множителей, приве- 
денных на рис. 2.3: для каждой функции / ( 2Ѵ), 
показанной слева, найдите асимптотическую 
формулу для /(2УѴ) //(АО. 

2.5 Простейшие рекурсии 

Как мы увидим далее в этой книге, многие ал- 
горитмы основаны на принципе рекурсивного 
разбиения большой задачи на меньшие, когда ре- 
шения подзадач используются для решения исход- 
ной задачи. Эта тема подробно обсуждается в гла- 
ве 5, в основном, с практической точки зрения, 



РИСУНОК 2.5 АППРОКСИМАЦИЯ 
ФУНКЦИЙ 

Когда говорят, что функция &( УѴ/ 
пропорциональна функции /(ІЯ) 
(верхний график), то 
подразумевают, что она растет 
как /( IV), но, возможно, смещена 
относительно последней на 
неизвестную постоянную. Если 
задано некоторое значение %( /V), 
можно предсказать поведение 
функции при больших N. Когда 
говорят, что %(М) порядка /(Ы) 
(нижний график), то 
подразумевают, что функцию / 
можно использовать для более 
точной оценки значений функции %. 


где основное внимание уделено различным реа- 
лизациям и приложениям. Кроме того, в разделе 2.6 приводится подробный пример. 
В этом разделе исследуются простейшие методы анализа таких алгоритмов и вывод 
решений нескольких стандартных формул, которые возникают при анализе многих 
изучаемых алгоритмов. Понимание математических свойств формул в этом разделе 
дает необходимое понимание свойств производительности алгоритмов. 

Рекурсивное разбиение алгоритма напрямую проявляется в его анализе. Напри- 
мер, время выполнения подобных алгоритмов определяется величиной и номером 
подзадачи, а также временем, необходимым для разбиения задачи. Математически 
зависимость времени выполнения алгоритма для ввода величиной N от времени вы- 


полнения при меньшем количестве вводов легко задается с помощью рекуррентных 
соотношений. Такие формулы точно описывают производительность алгоритмов: для 
вычисления времени выполнения необходимо решить эти рекурсии. Более строгие 
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аргументы, связанные со спецификой алгоритмов, встретятся при их непосредствен- 
ном рассмотрении; здесь же внимание уделяется только формулам самим по себе. 

Формула 2.1 В рекурсивной программе, где при каждой итерации цикла количе- 
ство вводов уменьшается на единицу, возникает следующее рекуррентное соотно- 
шение: 

См = С/ѵ-і + N. где N > 2 и С х = 1. 

Решение : См порядка УѴ 2 / 2. Для решения рекурсии ее можно раскрыть, применяя 
саму к себе следующим образом: 

См = См-1 + N 

= См -2 + (УѴ- 1) + УѴ 
= См-з + (УѴ — 2) + (УѴ — 1) + УѴ 


Продолжая таким же образом, можно получить 
См = Сі + 2 + ... + (УѴ— 2) + (УѴ — 1) + УѴ 

= 1 + 2 + ... + (УѴ- 2) + (УѴ- 1) + N 

УѴ(УѴ + 1) 

"" " ' 1 • 

2 

Подсчет суммы 1 + 2 + ... + (УѴ - 2) + (УѴ - 1) + УѴ элементарен: прибавим к сум- 
ме ее же, но в обратном порядке. Результирующая сумма — удвоенный искомый 
результат — будет состоять из N слагаемых, каждое из которых равно УѴ + 1. 

Формула 2.2 В рекурсивной программе, где на каждом шаге количество вводов 
уменьшается вдвое, возникает следующее рекуррентное соотношение: 

См = См /2 + 1 , где УѴ > 2 и С\ = 1 . 

Решение: См порядка 1§ УѴ. Из написанного следует, что это уравнение бессмыслен- 
но за исключением случая, когда УѴ четно или же предполагается, что УѴ/ 2 — це- 
лочисленное деление. Сейчас предположим, что УѴ = 2 п , чтобы рекурсия была все- 
гда определена. (Заметьте, что п — 1§ IV.) Тогда рекурсию еще проще раскрыть, 
чем в предыдущем случае: 

С 2 " ~ С 2"-' + 1 
= С Г -2 +1 + 1 

= С 2 » -з + 3 


— С20 + П 

= /7 + 1. 

Точное решение для любого УѴ зависит от интерпретации УѴ/ 2. Если УѴ/ 2 представ- 
ляет собой І_УѴ/2_|, тогда существует очень простое решение: См — это количество 
бит в двоичном представлении числа УѴ, т.е. по определению ІІ^УѴ] + 1. Этот вы- 
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Аші, 


вод немедленно следует из того, что операция от- 
брасывания правого бита в двоичном представлении 
любого числа N > 0 превращает его в 1 _УѴ/2] (см. рис. 
2 . 6 ). 


Формула 2.3 В рекурсивной программе, где количе- 
ство вводов уменьшается вдвое, но необходимо про- 
верить каждый элемент, возникает следующее ре- 
куррентное соотношение: 

Сдг = Сдг /2 + УѴ, где УѴ > 2 и С\ = 0. 

Решение : порядка 2УѴ. Рекурсия раскрывается в 
сумму УѴ + УѴ/2 + УѴ/4 + УѴ/8 + ... (Как и формуле 2.2, 
рекуррентное соотношение определено точно 
только в том случае, если УѴ является степенью 
числа 2). Если данная последовательность беско- 
нечна, то сумма простой геометрической прогрес- 
сии равна 2УѴ. Поскольку мы используем целочис- 
ленное деление и останавливаемся на 1, данное 
значение является приближением к точному отве- 
ту. В точном решении используются свойства двоич- 
ного представления числа УѴ. 


Формула 2.4 В рекурсивной программе, которая 
должна выполнить линейный проход по вводам до, 
в течение или после разбиения их на две половины, 
возникает следующее рекуррентное соотношение: 

Сдг = 2С#/2 + УѴ, где УѴ > 2 и С\ = 0. 

Решение : С ^ порядка N 1§УѴ. На это решение ссыла- 
ются намного шире, чем на остальные из приведен- 
ных здесь, поскольку эта рекурсия используется в 
целом семействе алгоритмов "разделяй и властвуй". 





П 



+ 1 

+ 1 + 1 


N (Юі [1$ Л т ] + 1 
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РИСУНОК 2.6 ЦЕЛОЧИСЛЕННЫЕ 

ФУНКЦИИ И ДВОИЧНЫЕ 


ПРЕДСТАВЛЕНИЯ. 

Рассматривая двоичное 
представление числа N (в 
центре), получим [_УѴ/2 ] путем 
отбрасывания правого бита. 

То есть, количество бит в 
двоичном представлении числа 
N на единицу больше, чем в 
представлении числа [_ЛУ2 _]. 
Поэтому [_1§Л^ + 1, количество 
бит в двоичном представлении 
числа іѴ, является решением 
формулы 2.2 в случае, если УѴ/2 
интерпретируется, как [_УѴ/2І 


= п. 

Мы находим решение почти так же, как это было сделано в формуле 2.2, но с до- 
полнительным приемом на втором шаге — делением обеих частей равенства на 2”, 
который позволяет раскрыть рекурсию. 
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Формула 2.5 В рекурсивной программе, которая разбивает ввод надвое, а затем 
производит постоянное количество других операций (см. главу 5) возникает сле- 
дующая рекурсия. 

Сдг= 2С т + 1, где N > 2 и С\ = 1. 

Решение : СѴ порядка 2УѴ. Это решение можно получить так же, как и решение 
формулы 2.4. 

С помощью приведенных методов можно решить различные варианты подобных 
формул, имеющих другие начальные условия или небольшие отличия в добавочном 
члене, но необходимо помнить, что некоторые рекурсии, кажущиеся похожими, могут 
иметь гораздо более сложные решения. Существует множество специальных общих 
методов для математически строгого решения таких уравнений (см. раздел ссылок). 
Несколько сложных рекуррентных соотношений встретится в последующих главах, 
где и будут обсуждаться их решения. 

Упражнения 

> 2.33 Составьте таблицу значений заданных формулой 2.2 для 1 < УѴ < 32, счи- 
тая, что УѴ/2 означает ІУѴ/2_]. 

> 2.34 Выполните упражнение 2.33, но считая, что N/2 означает \ N/2]. 

> 2.35 Выполните упражнение 2.34 для формулы 2.3. 

о 2.36 Предположим, что пропорционально постоянной величине и 

Сдг = Суѵ /2 + /дг, где УѴ > / и 0 < С* < с при N < /, 

где си/— постоянные. Покажите, что С н пропорционально 1§УѴ. 

• 2.37 Сформулируйте и докажите обобщенные версии формул 2.3— 2.5, аналогич- 
ные обобщенной версии формулы 2.2 в упражнении 2.36. 

2.38 Составьте таблицу значений Сдг, заданных формулой 2.4 при 1 < УѴ < 32 для 
трех следующих случаев: (і) N/2 означает [^N/2], (іі) N/2 означает ГЛУ2І, (ііі) 
2 Сду 2 равно Сім/ 2 ] + С 0 / 2 ]. 

2.39 Решите формулу 2.4 для случая, когда N/2 означает 1_ЛУ2_|, используя соответ- 
ствие двоичному представлению числа УѴ, как это было сделано в доказательстве 
формулы 2.2. Подсказка : Рассмотрите все числа, меньшие N. 

2.40 Решите рекурсию 

С# = С/ѵ /2 + N 2 при УѴ > 2 и С\ = О, 

когда УѴ является степенью числа 2. 

2.41 Решите рекурсию 

Сд' — Суѵ/ а + 1 при УѴ > 2 и С\ = О, 

когда УѴ является степенью числа а. 
о 2.42 Решите рекурсию 

Сдг= аСдг /2 при УѴ > 2 и С\ = 1, 
когда УѴ является степенью, числа 2. 
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о 2.43 Решите рекурсию 

Суѵ = (Суѵ/2) 2 при N > 2 и Сі = 1, 

когда іѴ является степенью числа 2. 
• 2.44 Решите рекурсию 


г 


С;ѵ - 


2 + 


1 


Л 


V 


І8# 


^N 12 при N > 2 и Сі = 1, 


/ 


когда 7Ѵ является степенью числа 2. 


• 2.45 Рассмотрите семейство рекурсий наподобие формулы 2.1, где УѴ/2 может оз- 
начать ІЩ2І ИЛИ Г N/21 и единственное требование заключается в том, чтобы ре- 
курсия имела место при N > с 0 и С# = 0(1) при N < с 0 . Докажите, что решением 
всех таких рекурсий является формула 1§УѴ + 0(1). 

•• 2.46 Выведите обобщенные рекурсии и их решения, как в упражнении 2.45, для 
формул 2.2— 2.5. 


2.6 Примеры алгоритмического анализа 

Вооружившись инструментами, о которых было рассказано в трех предыдущих 
разделах, мы рассмотрим анализ последовательного и бинарного поиска — двух ос- 
новных алгоритмов для определения того, входит ли некоторая последовательность 
объектов в заданный набор объектов. Нашей целью является иллюстрация того, как 
можно сравнивать алгоритмы, а не подробное описание самих алгоритмов. Для про- 
стоты предположим, что все рассматриваемые объекты являются целыми числами. 
Общие приложения рассматриваются в главах 12—16. Простые версии алгоритмов, 
которые изучаются сейчас, не только демонстрируют многие аспекты задачи их раз- 
работки и анализа, но и имеют прямое применение. 

Например, представим себе компанию, обрабатывающую кредитные карточки и 
имеющую N рискованных или украденных кредитных карточек. При этом компании 
необходимо проверять, нет ли среди М транзакций какого-либо из этих N плохих 
номеров. Для общности необходимо считать N большим (скажем, порядка ІО 3 — ІО 6 ), 
а М — огромным (порядка ІО 6 — ІО 9 ). Цель анализа заключается в приблизительной 
оценке времен выполнения алгоритмов, когда параметры принимают значения из 
указанного диапазона. 

Программа 2.1 реализует прямое решение проблемы поиска. Она оформлена как 
функция С++, обрабатывающая массив (см. главу 3), для совместимости с другими 
вариантами кода для этой задачи, которые мы исследуем в части 4. Однако необяза- 
тельно вдаваться в детали программы для понимания алгоритма: мы сохраняем все 
объекты в массиве, затем для каждой транзакции мы последовательно просматрива- 
ем массив от начала до конца, проверяя, содержится ли в нем нужный номер. 

Для анализа алгоритма, прежде всего, отметим, что время выполнения зависит от 
того, находится ли требуемый объект в массиве. Если поиск не является успешным, 
мы можем определить это, только проверив все N объектов, но успешный поиск мо- 
жет завершиться на первом, втором или лю§ом другом объекте. 
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Программа 2.1 Последовательный поиск 

Данная функция проверяет, находится ли число ѵ среди элементов массива а[І], а[І+1], 
а[г] путем последовательного сравнения с каждым элементом, начиная с начала. 
Если по достижении последнего элемента нужное значение не найдено, то функция 
возвращает значение -1. Иначе она возвращает индекс элемента массива, 
содержащего искомое число. 

іпЪ 5еагсЬ(іп1 а[], іп-Ь ѵ, іп-Ь 1, іп Ь г) 

{ 

^ог (іп! і = 1; і <= г; і++) 

(ѵ == а[і]) ге^игп і; 
геѣигп -1; 

} 


Поэтому время выполнения зависит от данных. Если бы все варианты поиска про- 
исходили для чисел, которые находились в первой позиции, тогда алгоритм был бы 
быстрым; если бы они происходили для чисел, находящихся в последней позиции, 
тогда алгоритм был бы медленным. В разделе 2.7 мы обсудим разницу между возмож- 
ностью гарантировать производительность и предсказать производительность. В дан- 
ном случае, лучшее, что мы можем гарантировать — будет исследовано не более N 
чисел. 

Однако, чтобы сделать какой-либо прогноз, необходимо высказать предположе- 
ние о данных. В данном случае предположим, что все числа выбраны случайным об- 
разом. Из него следует, например, что каждое число в таблице может с одинаковой 
вероятностью оказаться предметом поиска. После некоторых размышлений мы при- 
ходим к выводу, что именно это свойство поиска является наиболее важным, пото- 
му что среди случайно выбранных чисел может вообще не происходить успешного 
поиска (см. упражнение 2.48). В некоторых приложениях количество транзакций с 
успешным поиском может быть высоким, в других приложениях — низким. Чтобы не 
запутывать модель свойствами приложения, мы разделим задачу на два случая (ус- 
пешный и неуспешный поиск) и проанализируем их независимо. Данный пример 
иллюстрирует, что важным моментом эффективного анализа является разработка 
разумной модели приложения. Наши аналитические результаты будут зависеть от 
доли успешных поисков, более того, они обеспечат нас информацией, необходимой 
для выбора различных алгоритмов для разных приложений на основании этого па- 
раметра. 

Лемма 2.1 Последовательный поиск исследует N чисел при каждом неуспешном поис- 
ке и в среднем порядка N/2 чисел при каждом успешном поиске. 

Если каждое число в таблице с равной вероятностью может быть объектом поис- 
ка, тогда 

(1 + 2 + ... + У Ѵ)/УѴ = (УѴ + 1)/2 
является средней ценой поиска. 

Лемма 2.1 подразумевает, что время выполнения программы 2.1 пропорциональ- 
но УѴ, предмет неявного допущения, что средняя цена сравнения двух чисел посто- 
янна. Таким образом, например, можно ожидать, что если удвоить количество объек- 
тов, то и время, необходимое для поиска, также удвоится. 
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Последовательный поиск в неуспешном случае можно ускорить, если упорядочить 
числа в таблице. Сортировка чисел в таблице является предметом рассмотрения глав 
6—11. Несколько алгоритмов, которые мы рассмотрим, выполняют эту задачу за вре- 
мя, пропорциональное N 1о§УѴ, которое незначительно по сравнению с ценой поис- 
ка при очень больших М. В упорядоченной таблице можно прервать поиск сразу по 
достижении числа, большего, чем искомое. Такое изменение уменьшает цену после- 
довательного поиска до Лу 2 чисел, которые необходимо в среднем проверить при не- 
успешном поиске. Время для такого случая совпадает со временем для успешного 
поиска. 

Лемма 2.2 Алгоритм последовательного поиска в упорядоченной таблице проверяет N 
чисел для каждого поиска в худшем случае и порядка N/2 чисел в среднем. 

Здесь все еще необходимо определить модель неуспешного поиска. Этот резуль- 
тат следует из предположения, что поиск может с равной вероятностью закончится 
на любом из N 4- 1 интервалов, задаваемых N числами в таблице, а это непосред- 
ственно приводит к выражению 

(1 + 2 + ... + УѴ + = (УѴ + 3)/2. 

Цена неуспешного поиска, который заканчивается до или после УѴ-ой записи в 
таблице, такая же: УѴ. 

Другой способ выразить результат леммы 2.2 — это сказать, что время выполне- 
ния последовательного поиска пропорционально МN для М транзакций в среднем и 
худшем случае. Если мы удвоим или количество транзакций, или количество объек- 
тов в таблице, то время выполнения удвоится; если мы удвоим обе величины одно- 
временно, тогда время выполнения вырастет в 4 раза. Этот результат свидетельствует 
о том, что данный метод не подходит для очень больших таблиц. Если для проверки 
одного числа требуется с микросекунд, а М = ІО 9 и N — ІО 6 , тогда время выполнения 
для всех транзакций будет, по крайней мере, (с/ 2) ІО 9 секунд, или, следуя рис. 2.1, 
около 16с лет, что совершенно не подходит. 

Программа 2.2 Бинарный поиск 

Эта программа обладает такой же функциональностью, что и программа 2.1, но 
гораздо эффективнее. 

іп-Ь зеагсЬ(іп-Ь а[], іп-Ь ѵ, іп-Ь 1, іп-Ь г) 

{ 

ѵЪіІе (г >= 1) 

{ іп-Ь т = (1+г)/2; 

іі: (ѵ == а[т]) гѳ’Ьигп т; 

іі: (ѵ < а[т]) г = т-1; еізѳ 1 = т+1 ; 

} 

ге1:гігп -1; 

} 


Программа 2.2 представляет собой классическое решение проблемы поиска мето- 
дом, гораздо более эффективным, чем последовательный поиск. Он основан на идее, 
что если числа в таблице упорядочены, мы можем отбросить половину из них, после 
сравнения искомого значения с числом из середины таблицы. Если они равны, зна- 
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чит, поиск прошел успешно, если искомое число 
меньше, то мы применим такой же метод к левой 
части таблицы, если больше — то к правой. На рис. 
2.7 представлен пример выполнения этого метода 
над набором чисел. 

Лемма 2.3 Бинарный поиск исследует не более 
І.І8ЯІ + 1 чисел . 

Доказательство данной леммы иллюстрирует при- 
менение рекуррентных соотношений при анали- 
зе алгоритмов. Пусть 7Ѵ — это количество срав- 
нений, необходимое бинарному поиску в худшем 
случае, тогда из того, что алгоритм сводит поиск 
в таблице размера N к поиску в два раза меньшей 
таблице, непосредственно следует, что 

Тн < Ті т \ + 1, при N > 2 и Т\ = 1. 

При поиске в таблице размером N мы проверяем 
число посредине, затем производим поиск в таб- 
лице размером не более |_УѴ/2 _|. Реальная цена мо- 
жет быть меньше этого значения, так как сравне- 
ние может закончиться успешно или таблица 
будет иметь размер |_УѴ/2 ] — 1 (если N четно). Так 
же, как это было сделано в решении формулы 
2.2, легко доказать, что 7^ < п + 1 при N = 2", а 
затем получить общий результат с помощью ин- 
дукции. 


1488 1488 
1578 1578 
1973 1973 
3665 3665 
4426 4426 
4548 4548 

5435 5435 5435 5435 5435 

5446 5446 5446 5446 

6333 6333 6333 

6385 6385 6385 

6455 6455 6455 

6504 

6937 

6965 

7104 

7230 

8340 

8958 

9208 

9364 

9550 

9645 

9686 

РИСУНОК 2.7 БИНАРНЫЙ ПОИСК 

Чтобы проверить , содержится ли 
число 5025 в таблице , приведенной 
в левой колонке , мы сначала 
сравниваем его с 6504, из чего 
следует, что дальше необходимо 


Лемма 2.3 позволяет решить очень большую зада- 
чу с 1 миллионом чисел при помощи 20 сравнений на 
транзакцию, а это обычно время, меньшее, чем тре- 
буется для чтения или записи числа на большинстве 
современных компьютеров. Проблема поиска на- 
столько важна, что было разработано несколько ме- 
тодов еще более быстрых, чем приведенный здесь, как 
будет показано в главах 12—16. 

Отметьте, что леммы 2.1 и 2.2 выражены через 
операции, наиболее часто выполняемые над данны- 
ми. Как отмечено в комментарии, следующем за 
леммой 2.1, ожидается, что каждая операция должна 


рассматривать первую половину 
массива. Затем производится 
сравнение с числом 4548 ( середина 
первой половины), после чего 
исследуется вторая половина 
первой половины. Мы продолжаем 
этот процесс , работая с 
подмассивом, в котором может 
содержаться искомое число, если 
оно есть в таблице. В заключение 
мы получаем подмассив с одним 
элементом, не равным 5025, из 
чего следует, что 5025 в таблице 
не содержится. 


занимать постоянное время, тогда можно заключить, 
что время выполнения бинарного поиска пропорци- 
онально 1§7Ѵ, в отличие от N для последовательного поиска. При удвоении N время 
бинарного поиска изменяется, но не удваивается, как это имеет место для последо- 
вательного поиска. С ростом N разница между двумя методами растет. 

Можно проверить аналитическое доказательство лемм 2.1 и 2.2, написав програм- 
му и протестировав алгоритм. Например, в табл. 2.4 показаны времена выполнения 
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бинарного и последовательного поиска для М поисков в таблице размером N (вклю- 
чая в случае бинарного поиска и цену сортировки таблицы) при различных значениях 
М и N. Здесь мы не будем рассматривать реализаций программы и детальные экспе- 
рименты, поскольку похожие задачи полностью рассмотрены в главах 6 и 11, а, кроме 
того, использование библиотечных и внешних функций и другие детали создания 
программ из компонент, включая и функцию зогі, объясняются в главе 3. В данный 
момент мы просто подчеркнем, что проведение эмпирического тестирования — это 
неотъемлемая часть оценки эффективности алгоритма. 

Таблица 2.4 подтверждает наше наблюдение, что функциональный рост времени 
выполнения позволяет предсказать производительность в случае больших значений 
параметров на основе эмпирического изучения работы алгоритма при малых значе- 
ниях. Объединение математического анализа и эмпирического изучения убедительно 
показывает, что предпочтительным алгоритмом, безусловно, является бинарный по- 
иск. 

Таблица 2.4 Эмпирическое изучение последовательного и бинарного поиска 

Приведенные ниже относительные времена выполнения подтверждают наши 
аналитические результаты, что в случае М поисков в таблице из N объектов время 
последовательного поиска пропорционально МЫ, а время бинарного поиска — М ІдЛ/. 

При удвоении N время последовательного поиска также удваивается, а время 
бинарного поиска почти не изменяется. Последовательный поиск неприменим для 
очень больших М при растущих Л/, а бинарный поиск является достаточно быстрым 
даже для огромных таблиц. 


N 

М = 

1000 

М = 

10000 

М = 

100000 

5 

В 

3 

В 

3 

В 

125 

1 

1 

13 

2 

130 

20 

250 

3 

0 

25 

2 

251 

22 

500 

5 

0 

49 

3 

492 

23 

1250 

13 

0 

128 

3 

1276 

25 

2500 

26 

1 

267 

3 


28 

5000 

53 

0 

533 

3 


30 

12500 

134 

1 

1337 

3 


33 

25000 

268 

1 


3 


35 

50000 

537 

0 


4 


39 

100000 

1269 

1 


5 


47 


Значения : 

3 последовательный поиск (программа 2.1) 

В бинарный поиск (программа 2.2) 
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Данный пример является прототипом общего подхода к сравнению алгоритмов. 
Математический анализ используется для оценки частоты, с которой алгоритм про- 
изводит абстрактные операции, затем на основе этих результатов выводится функци- 
ональная форма времени выполнения, которая позволяет проверить и расширить 
эмпирические данные. По мере нахождения алгоритмических решений все более и 
более тонких вычислительных задач и усложняющемся математическом анализе 
свойств их производительности, мы будем обращаться к литературе за математичес- 
кими результатами, чтобы основное внимание в книге уделить самим алгоритмам. 
Здесь нет возможности производить тщательное математическое и эмпирическое изу- 
чение всех алгоритмов, а главной задачей является определение наиболее существен- 
ных характеристик производительности. При этом, в принципе, всегда можно разра- 
ботать научную основу, необходимую для правильного выбора алгоритмов для 
важных приложений. 

Упражнения 

> 2.47 Найдите среднее число сравнений, используемых программой 2.1, если аУѴ 
поисков прошли успешно, а 0 < ос < 1. 

•• 2.48 Оцените вероятность того, что хотя бы одно из М случайных десятизначных 
чисел будет содержаться в наборе из N чисел, при М= 10, 100, 1000 и/Ѵ = ІО 3 , ІО 4 , 
ІО 5 , 10 6 . 

2.49 Напишите программу, которая генерирует М целых чисел и помещает их в 
массив, затем подсчитывает количество N целых чисел, которые совпадают с од- 
ним из чисел массива, используя последовательный поиск. Запустите программу 
при М= 10, 100, 1000 и 1Ѵ= 10, 100, 1000. 

• 2.50 Сформулируйте и докажите лемму, аналогичную лемме 2.3 для бинарного 
поиска. 

2.7 Гарантии, предсказания и ограничения 

Время выполнения большинства алгоритмов зависит от входных данных. Обычно 
нашей целью при анализе алгоритмов является исключить каким-либо образом эту 
зависимость: необходимо иметь возможность сказать что-то о производительности 
наших программ, что почти не зависит от входных данных, так как в общем случае 
неизвестно, какими будут входные данные при каждом новом запуске программы. 
Примеры из раздела 2.6 иллюстрируют два основных подхода, которые применяют- 
ся в этом случае: анализ низкой производительности и анализ средней производи- 
тельности. 

Изучение низкой производительности алгоритмов достаточно привлекательно, по- 
скольку оно позволяет гарантировать что-либо о времени выполнения программ. Мы 
говорим, что частота, с которой запускаются определенные абстрактные операции, 
меньше, чем определенная функция от количества вводов, независимо от того, ка- 
кими являются входные значения. Например, лемма 2.3 — пример такой гарантии для 
бинарного поиска, так же как лемма 1.3 — для взвешенного быстрого объединения. 
Если гарантии являются низкими, как в случае с бинарным поиском, тогда это бла- 
гоприятная ситуация, поскольку удалось устранить ситуации, когда программа 
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работает медленно. Поэтому программы с хорошими характеристиками в случае низ- 
кой производительности и являются основной целью разработки алгоритмов. 

Однако при анализе низкой производительности существуют и некоторые трудно- 
сти. Для определенных алгоритмов может существовать весомая разница между вре- 
менем, необходимым для решения задачи в случае худших входных данных, и вре- 
менем, необходимым в случае данных, которые встречаются на практике. Например, 
быстрое объединение в случае низкой производительности требует времени выпол- 
нения, пропорционального УѴ, и пропорционального лишь 1о§УѴ для обычных данных. 
Часто не удается доказать, что существуют входные данные, для которых время вы- 
полнения алгоритма достигает определенного предельного значения; можно лишь 
доказать, что время выполнения будет ниже этого предела. Более того, для некото- 
рых задач алгоритмы с хорошими показателями низкой производительности гораздо 
сложнее, чем другие алгоритмы для этих задач. Иногда возникает ситуация, когда 
алгоритм с хорошими характеристиками низкой производительности при работе с 
практическими данными оказывается медленнее, чем более простые алгоритмы, или 
же при незначительной разнице в скорости он требует дополнительных усилий для 
достижения хороших характеристик низкой производительности. Для многих прило- 
жений другие соображения — переносимость и надежность — являются более важны- 
ми, чем гарантии, даваемые в случае низкой производительности. Например, как 
было показано в главе 1, взвешенное быстрое объединение со сжатием пути обеспе- 
чивает лучшие гарантии производительности, чем взвешенное быстрое объединение, 
но для типичных данных, встречающихся на практике, алгоритмы имеют почти оди- 
наковое время выполнения. 

Изучение средней производительности алгоритмов более существенно, поскольку 
оно позволяет делать предположения о времени выполнения программ. В простейшем 
случае можно точно охарактеризовать входные данные алгоритма, например, алго- 
ритм сортировки может выполняться над массивом из N случайных целых чисел или 
геометрический алгоритм может обрабатывать набор из N случайных точек на плос- 
кости с координатами между 0 и 1. Затем мы можем подсчитать, сколько раз в сред- 
нем выполняется каждая инструкция, и вычислить среднее время выполнения про- 
граммы, умножив частоту выполнения каждой инструкции на время ее выполнения 
и суммируя по всем инструкциям. 

Однако и в анализе средней производительности существуют трудности. Во-пер- 
вых, входная модель может неточно характеризовать входные данные, встречающи- 
еся на практике, или же естественная модель входных данных может вообще не су- 
ществовать. Мало кто будет возражать против использования таких моделей входных 
данных, как "случайно упорядоченный файл", для алгоритма сортировки или "случай- 
ный набор точек" для геометрического алгоритма, и для таких моделей можно полу- 
чить математические результаты, которые будут точными предположениями о произ- 
водительности программ в реальных приложениях. Но как можно характеризовать 
входные данные для программы, которая обрабатывает текст на английском языке? 
Даже для алгоритмов сортировки в определенных приложениях рассматриваются дру- 
гие модели кроме модели случайно упорядоченных данных. Во-вторых, анализ мо- 
жет требовать глубоких математических доказательств. Например, анализ случая 
средней производительности для алгоритмов ипіоп-/іпсі достаточно сложен. Хотя вы- 
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вод таких результатов обычно выходит за пределы этой книги, мы будем иллюстри- 
ровать их природу некоторыми классическими примерами, а также, при необходимо- 
сти, будем ссылаться на важные результаты (к счастью, анализ большинства алгорит- 
мов можно найти в исследовательской литературе). В третьих, знания среднего 
значения времени выполнения может оказаться недостаточно: может понадобиться 
среднее отклонение или другие факты о распределении времени выполнения, вывод 
которых может оказаться еще более трудным. В частности, нас будет интересовать 
вероятность того, что алгоритм окажется значительно медленнее, нежели ожидает- 
ся. 

Во многих случаях на первое возражение можно ответить превращением случай- 
ности в достоинство. Например, если мы случайным образом "взболтаем" массив до 
сортировки, тогда допущение о том, что элементы массива находятся в случайном 
порядке, будет выполнено. Для таких алгоритмов, называемых рандомизированными 
алгоритмами , анализ средней производительности приводит к ожидаемому времени 
выполнения в строгом вероятностном смысле. Более того, часто можно доказать, что 
вероятность того, что такой алгоритм будет медленным, пренебрежимо мала. Приме- 
ры таких алгоритмов включают в себя быструю сортировку (см. главу 9), рандомизи- 
рованные В8Т (см. главу 13) и хеширование (см. главу 14). 

Вычислительная сложность — это направление анализа алгоритмов, которое зани- 
мается фундаментальными ограничениями , могущими возникнуть при анализе алгорит- 
мов. Общая цель заключается в определении времени выполнения для низкой про- 
изводительности лучшего алгоритма для данной задачи с точностью до постоянного 
множителя. Эта функция называется сложностью задачи. 

Анализ низкой производительности с использованием О-нотации освобождает ана- 
литика от необходимости включать в рассмотрение характеристики определенной 
машины. Выражение "время выполнения алгоритма равно 0(/(УѴ))" не зависит от 
входных данных и полезно для распределения алгоритмов по категориям в незави- 
симости от входных данных и деталей реализации, и таким образом отделяет анализ 
алгоритма от какой-либо определенной его реализации. В анализе мы, как правило, 
отбрасываем постоянные множители. В большинстве случаев, если мы хотим знать, 
чему пропорционально время выполнения алгоритма, — N или 1о§А, — не имеет зна- 
чения, гд Ь будет выполняться алгоритм — на небольшом компьютере или на супер- 
компьютере; более того, не имеет значения даже то, хорошо или плохо реализован 
внутренний цикл алгоритма. 

Когда можно доказать, что время выполнения алгоритма в случае низкой произ- 
водительности равно <9(/(Л0), то говорят, что /(А) является верхней границей сложно- 
сти задачи. Другими словами, время выполнения лучшего алгоритма не больше, чем 
время любого другого алгоритма для данной задачи. 

Мы постоянно стремимся улучшить алгоритмы, но, в конце концов, достигаем 
точки, где никакое изменение не может снизить время выполнения. Для каждой за- 
дачи мы заинтересованы в том, чтобы знать, где необходимо остановиться в улучше- 
нии алгоритма, т.е. мы ищем нижнюю границу сложности. Для многих задач можно 
доказать, что любой алгоритм решения задачи должен использовать определенное 
количество фундаментальных операций. Доказательство существования нижней гра- 
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ницы — сложное дело, связанное с тщательным созданием модели машины и разра- 
боткой замысловатых теоретических конструкций входных данных, которые тяжело 
решить для любого алгоритма. Мы редко затрагиваем вопрос о нахождении нижних 
границ, но они представляют собой вычислительные барьеры при разработке алго- 
ритмов, и о них будет упоминаться при необходимости. 

Когда изучение сложности задачи показывает, что верхняя и нижняя границы ал- 
горитма совпадают, тогда можно быть уверенным в том, что нет смысла пытаться 
разработать алгоритм, который был бы фундаментально быстрее, чем наилучший из 
известных. В этом случае можно сконцентрировать внимание на реализации. Напри- 
мер, бинарный поиск является оптимальным в том смысле, что никакой алгоритм, 
использующий только сравнения, сможет обойтись меньшим их количеством в случае 
низкой производительности, чем бинарный поиск. 

Верхняя и нижняя границы совпадают также и для алгоритмов ипіоп-ГіпсІ, исполь- 
зующих указатели. В 1975 г. Тарьян (Тафп) показал, что алгоритм взвешенного бы- 
строго объединения со сжатием пути требует следования по менее, чем 0(\%*Ѵ) ука- 
зателям в случае низкой производительности, и что любой алгоритм с указателями 
должен следовать более, чем по постоянному числу указателей в случае низкой про- 
изводительности для некоторых входных данных. Другими словами, нет смысла в 
поиске какого-либо нового улучшения, которое гарантировало бы решение задачи 
линейным числом операций і = а[і]. На практике эта разница очень мала, посколь- 
ку 1§*К очень мало, тем не менее, нахождение простого линейного алгоритма для 
этой задачи было темой исследования в течение долгого времени, и найденная Та- 
рьяном нижняя граница направила усилия исследователей на другие задачи. Более 
того, история показывает, что нельзя обойти функции наподобие сложной функции 
1о§*, поскольку они присущи этой задаче. 

Многие алгоритмы в этой книге были предметом глубокого математического ана- 
лиза, и исследования их производительности слишком сложны, чтобы обсуждать их 
здесь. Но именно на основе этих исследований мы рекомендуем многие из тех ал- 
горитмов, которые описаны далее. 

Не все алгоритмы стоят такого тщательного рассмотрения; более того, при созда- 
нии алгоритмов желательно работать с приближенными признаками производитель- 
ности, чтобы не загружать процесс посторонними деталями. По мере того как раз- 
работка алгоритма становится более утонченной, то же самое должно происходить и 
с анализом, привлекая все более сложные математические инструменты. Часто про- 
цесс создания алгоритма приводит к детальному изучению сложности, которые, в 
свою очередь, ведут к таким теоретическим алгоритмам, которые далеки от каких- 
либо практических приложений. Распространенной ошибкой является считать, что 
грубый анализ исследований сложности сразу же приведет к практически эффектив- 
ному алгоритму. Такие предположения ведут к неприятным неожиданностям. С дру- 
гой стороны, вычислительная сложность — это мощный инструмент, который помо- 
гает определить границы производительности при разработке алгоритма и может 
послужить отправной точкой для сужения промежутка между верхней и нижней гра- 
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В этой книге мы придерживаемся точки зрения, что разработка алгоритма, тща- 
тельная его реализация, математический анализ, теоретические исследования и эм- 
пирический анализ все вместе вносят важный вклад в создание элегантных и эффек- 
тивных программ. Мы стремимся получить информацию о свойствах программ всеми 
доступными средствами, затем модифицировать их или разработать новые програм- 
мы на основе полученной информации. Мы не имеем возможности производить тща- 
тельное тестирование и анализ каждого алгоритма, запускаемого в программной сре- 
де на любой возможной машине, но мы можем воспользоваться реализациями 
алгоритмов, эффективность которых известна, а затем улучшать и сравнивать их, 
если требуется высокая производительность. По ходу книги при необходимости бу- 
дут достаточно подробно рассматриваться наиболее важные методы. 

Упражнение 

о 2.51 Известно, что временная сложность одной задачи равна N Іо^, а другой — 

N 3 . Что данное утверждение неявно выражает об относительной производитель- 
ности определенных алгоритмов, которые решают эти задачи? 

Ссылки к части 1 

Существует множество вводных учебников по программированию. Стандартной 
ссылкой на язык С++ является книга Страуструпа (Зігоизіир), а наилучшим источни- 
ков знаний о С с примерами программ, многие из которых являются полноценны- 
ми программами также для С++ и написаны в том же духе, что и программы в этой 
книге, служит книга Кернигана и Ричи (Кегпі^ап, КіІсЬіе) о языке С. 

Несколько вариантов алгоритмов для задачи ипіоп-Гіпб из главы 1 собраны и 
объяснены в статье Ван-Левена и Тарьяна (ѵап Ьееѵѵеп, Тацап). 

Книги Бентли (Вепііеу) описывают в том же стиле, что и материал, изложенный 
здесь, несколько исследований производительности и использование различных под- 
ходов при разработке и реализации алгоритмов для решения различных интересных 
задач. 

Классическая работа по анализу алгоритмов, основанная на измерениях асимпто- 
тической низкой производительности — это книга Ахо, Хопкрофта и Ульмана (АЬо, 
НорсгоГі, ІЛІтап). Книги Кнута (КпиіЬ) покрывают анализ средней производитель- 
ности более полно и являются официальным источником определенных свойств мно- 
гих алгоритмов. Книги Тонне, Баэ-Ят (Ооппеі, Ваег-Уаіез) и Кормен, Лейзерсон, 
Ривест (Согшеп, Ьеізогзоп, Яіѵе$1) являются более современными работами. Обе они 
включают обширный список ссылок на исследовательскую литературу. 

Книга Грэм, Кнут, Паташник (ОгаЬат, КпиіЬ, РаІзЬпік) рассказывает об областях 
математики, которые обычно встречаются при анализе алгоритмов; этот же матери- 
ал разбросан и в упомянутых ранее книгах Кнута. Книга Седжвика и Флажоле пред- 
ставляет собой исчерпывающее введение в предмет. 
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О рганизация данных для обработки является важным 
этапом разработки программ. Для реализации мно- 
гих приложений выбор структуры данных — единствен- 
ное важное решение: когда выбор сделан, разработка ал- 
горитмов не вызывает затруднений. Для одних и тех же 
данных различные структуры будут занимать неодинако- 
вое дисковое пространство. Одни и те же операции с раз- 
личными структурами данных создают алгоритмы неоди- 
наковой эффективности. Выбор алгоритмов и структур 
данных тесно взаимосвязан. Программисты постоянно 
изыскивают способы повышения быстродействия или эко- 
номии дискового пространства за счет оптимального вы- 
бора. 

Структура данных не является пассивным объектом: 
необходимо принимать во внимание выполняемые с ней 
операции (и алгоритмы, используемые для этих опера- 
ций). Эта концепция формально выражена в понятии типа 
данных (дат Туре). В данной главе основное внимание уде- 
ляется конкретным реализациям базовых принципов, ис- 
пользуемых для организации данных. Будут рассмотрены 
основные методы организации данных и управления ими, 
изучен ряд примеров, демонстрирующих преимущества 
каждого подхода, и сопутствующие вопросы, такие как 
управление областью хранения. В главе 4 обсуждаются аб- 
страктные типы данных , в которых описание типов дан- 
ных отделено от их реализации. 

Ниже будет представлен обзор массивов, связных спис- 
ков и строк. Эти классические структуры данных имеют 
широкое применение: посредством деревьев (см. главу 5) 
они формируют основу почти всех алгоритмов, рассмат- 
риваемых в данной книге. Рассматриваются различные 
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примитивные операции для управления структурами данных, а также разработки ба- 
зового набора средств, которые можно использовать для составления сложных алго- 
ритмов. 

Изучение хранения данных в виде объектов переменных размеров, а также в связ- 
ных структурах, требует знания, как система управляет областью хранения, которую 
она выделяет программам для данных. Эта тема рассматривается не во всех подроб- 
ностях, поскольку много важных моментов зависит от системы и аппаратных средств. 
Тем не менее, мы ознакомимся с принципами управления хранением и нескольки- 
ми базовыми механизмами решения этой задачи. Кроме того, будут рассмотрены спе- 
цифические методы, в которых используются механизмы выделения области хране- 
ния для программ на С++. 

В конце главы приводится несколько примеров составных структур (сотроипсі 
зігисіигез), таких как массивы связных списков и массивы массивов. Построение аб- 
страктных механизмов нарастающей сложности, начиная с нижнего уровня, являет- 
ся постоянной темой данной книги. Рассматривается ряд примеров, которые служат 
основой для последующего составления более совершенных алгоритмов. 

Изучаемые в этой главе структуры данных служат в качестве строительных бло- 
ков, которые можно использовать естественным образом в С++ и многих других 
языках программирования. В главе 5 рассматривается еще одна важная структура 
данных — дерево ((гее). Массивы, строки, связные списки и деревья служат базовыми 
элементами большинства алгоритмов, о которых идет речь в книге. В главе 4 рассмат- 
ривается использование конкретных представлений, разработанных на основе абст- 
рактных типов данных. Эти представления могут применяться в различных приложе- 
ниях. Остальная часть книги посвящена разработке различных вариантов базовых 
средств, деревьев и абстрактных типов данных для создания алгоритмов, решающих 
более сложные задачи. Они также могут служить основой для высокоуровневых аб- 
страктных типов данных в различных приложениях. 

3.1 Строительные блоки 

В этом разделе рассматриваются базовые низкоуровневые конструкции, исполь- 
зуемые для хранения и обработки информации в языке С++. Все обрабатываемые 
компьютером данные, в конечном счете, разбиваются на отдельные биты. Однако 
написание программ, обрабатывающих исключительно биты, слишком трудоемкое 
занятие. Типы позволяют указывать, как будут использоваться определенные наборы 
битов, а функции позволяют задавать операции, выполняемые над данными. Струк- 
туры С++ используются для группирования разнородных частей информации, а ука- 
затели (роіп(егз) служат для непрямой ссылки на информацию. В этом разделе изуча- 
ются основные механизмы языка С++ в контексте представления основного 
принципа организации программ. Главная цель — заложить основу разработки струк- 
тур высшего уровня (главы 3, 4 и 5), на базе которых будет построено большинство 
алгоритмов, рассматриваемых в данной книге. 

Программы обрабатывают информацию, которая происходит из математических 
или естественных языковых описаний окружающего мира. Соответственно, вычисли- 
тельная среда обеспечивает встроенную поддержку основных строительных блоков 
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подобных описаний — чисел и символов. В языке С++ программы построены на не- 
скольких базовых типах данных: 

■ Целые числа (іпі). 

■ Числа с плавающей точкой (Яоаі). 

■ Символы (сйаг). 

Принято ссылаться на эти типы по их именам в языке С++ (іпі, Яоаі и сЬаг), хотя 
часто используются обобщенные термины — целое (іпіе^ег), число с плавающей точкой 
и символ (скагасіег). Символы чаще всего используются в абстракциях высшего уров- 
ня — например, для создания слов и предложений. Поэтому обзор символьных дан- 
ных будет отложен до раздела 3.6, а пока обратимся к числам. 

Для представления чисел используется фиксированное количество бит. Таким об- 
разом, тип іпі относится к целым числам определенного диапазона, который зависит 
от количества бит, используемых для их представления. Числа с плавающей точкой 
приближаются к действительным числам, а используемое для их представления коли- 
чество бит определяет точность этого приближения. В языке С++ путем выбора типа 
достигается оптимальное соотношение точности и занимаемого пространства. Для 
целых допускаются типы іпі, 1оп§ іпі и §Ьог1 іпі, а для чисел с плавающей точкой — Яоаі 
и ёоиЫе. В большинстве систем эти типы соответствуют базовым аппаратным пред- 
ставлениям. Количество бит, используемое для представления чисел, а, следователь- 
но, диапазон значений (для целых) или точность (для чисел с плавающей точкой) за- 
висят от компьютера (см. упражнение 3.1). Тем не менее, язык С++ предоставляет 
определенные гарантии. В этой книге, ради простоты, обычно используются терми- 
ны іпі и Яоаі, за исключением случаев, когда необходимо подчеркнуть, что задача 
требует применения больших чисел. 

В современном программировании при выборе типов данных больше ориентиру- 
ются на потребности программы, чем на возможности компьютера, прежде всего из 
соображений переносимости приложений. Например, тип §Ьог1 іпі рассматривается 
как объект, который может принимать значения от -32767 до 32767, а не 16-битный 
объект. Более того, концепция целых чисел включает операции, которые могут с 
ними выполняться: сложение, умножение и т.д. 

Определение 3.1 Тип данных — это множество значений и набор операций с ними. 

Операции связаны с типами, а не наоборот. При выполнении операции необхо- 
димо обеспечить, чтобы ее операнды и результат отвечали определенному типу. Пре- 
небрежение этим правилом — распространенная ошибка программирования. В не- 
которых случаях С++ выполняет неявное преобразование типов; в других 
используется приведение (сазііщ), или явное преобразование типов. Например, если х 
и N целые числа, выражение 

( (^Іоаѣ) х) / N 

включает оба типа преобразований: оператор (Яоаі) выполняет приведение — вели- 
чина х преобразуется в значение с плавающей точкой. Затем для N выполняется не- 
явное преобразование, в соответствии с правилами С++, чтобы оба аргумента опе- 
ратора деления представляли значения с плавающей точкой. 
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Многие операции, связанные со стандартными типами данных (такие как ариф- 
метические), встроены в язык С++. Другие операции существуют в виде функций, 
которые определены в стандартных библиотеках функций. Остальные операции ре- 
ализуются в функциях С++, которые определены в программах (см. программу 3.1). 
Таким образом, концепция типа данных связана не только со встроенными типами 
(целые, значения с плавающей точкой и символы). Разработчики часто задают соб- 
ственные типы данных, что служит эффективным средством организации программ- 
ных средств. При описании простой функции С++ в результате создается новый тип 
данных. Реализуемая функцией операция добавляется к операциям, определенным 
для типов данных, которые представлены аргументами функции. В некотором смыс- 
ле, каждая программа С++ является типом данных — списком множеств значений 
(встроенных или других типов) и связанных с ними операций (функций). Возможно, 
эта концепция слишком обобщена, чтобы быть полезной, но мы убедимся в ценно- 
сти упрощенного осмысления программ как типов данных. 

Программа 3.1 Описание функций 

г ' ' " Л ' * " ■ " п 

Механизм, используемый в С++ для реализации новых операций с данными, 
представляет собой определение функций (Іипсііоп беЛпіііоп), которое демонстрируется 
ниже. 

Все функции имеют список аргументов и, возможно, возвращаемое значение (геіигп 
ѵаіие). Рассматриваемая функция Ід имеет один аргумент и возвращаемое значение. 

И то и другое относится к типу іпі. Функция таіп не принимает аргументов и 
возвращает значение типа іпі (по умолчанию — значение 0, которое указывает на 
успешное завершение). 

Функция объявляется (бесіаге) путем присвоения ей имени и типов возвращаемых 
значений. Первая строка программы ссылается на библиотечный файл, который 
содержит объявления соиі, << и епсІІ. Вторая строка объявляет функцию Ід. Если 
функция описана до ее использования (см. следующий абзац), объявление 
необязательно. Объявление предоставляет информацию, необходимую, чтобы другие 
функции вызывали данную с использованием аргументов допустимого типа. 
Вызывающая функция может использовать данную функцию в выражении подобно 
использованию переменных, имеющих тот же тип возвращаемых значений. 

Функции определяются (беііпе) посредством кода С++. Все программы на С++ 
содержат описание функции таіп, а данном примере также имеется описание функции 
Ід. В описании функции указываются имена аргументов (называемых параметрами) и 
выражения, реализующие вычисления с этими именами, как если бы они были 
локальными переменными. При вызове функции эти переменные инициализируются, 
принимая значения передаваемых аргументов, после чего выполняется код функции. 
Оператор геіигп служит командой завершения выполнения функции и передачи 
возвращаемого значения вызывающей функции. Обычно вызывающая функция не 
испытывает других воздействий, хотя нам встретится много исключений из этого 
правила. 

Разграничение описаний и объявлений создает гибкость в организации программ. 
Например, они могут содержаться в разных файлах (см. текст). Кроме того, в простой 
программе, подобной примеру, описание функции Ід можно поместить перед 
описанием таіп и опустить объявление. 

#іпс1и<іе <іозі:геат. Ъ> 
іпі: 1д(іпі:); 
іпі: таіп () 

{ 
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±от (іпЪ N = 1000; N <= 1000000000; N *= 10) 
соиЬ « 1д(Ы) « " " « N « епсіі ; 

} 

іпЪ 1д(іпЪ К) 

{ 

^ог (іпЪ і = 0; N > 0; і++, N /= 2) ; 

геЪшгп і ; 


При написании программ одна из задач заключается в их организации таким об- 
разом, чтобы они были применимы к насколь возможно более широкому диапазо- 
ну ситуаций. Причина в том, что достижение этой цели может позволить применить 
старую программу для решения новой задачи, которая иногда совершенно не связана 
с проблемой, изначально поставленной перед программой. Во-первых, осмысление 
и точное определение используемых программой операций позволяет легко распро- 
странить ее на любой тип данных, для которого эти операции могут поддерживать- 
ся. Во-вторых, путем точного определения действий программы можно добавить вы- 
полняемую ей абстрактную операцию к операциям, которые существуют для решения 
новых задач. 

Программа 3.2 реализует несложные вычисления с использованием простых типов 
данных, описанных с помощью операции іурегіеі' и функции (которая сама реализо- 
вана посредством библиотеки функций). Главная функция ссылается на тип данных, 
а не встроенный тип чисел. Не указывая тип чисел, обрабатываемых программой, мы 
расширяем ее потенциальную область применения. Например, подобный подход мо- 
жет продлить время жизни программы. Когда новое обстоятельство (новое приложе- 
ние, компилятор или компьютер) приводит к появлению нового типа чисел, который 
придется использовать, можно будет обновить программу за счет простого изменения 
типа данных. 


Программа 3.2 Типы чисел 

Эта программа вычисляет среднее значение р и среднеквадратичное отклонение <т 
ряда целых чисел х ѵ х 2 ,...,Хх, сгенерированных библиотечной процедурой гапсі. Ниже 
приводятся математические формулы: 



1 _ 

N 



і </<;ѵ 



Обратите внимание, что прямая реализация формулы определения <т 2 требует одного 
прохода для вычисления среднего и еще одного прохода для вычисления суммы 
квадратов разностей членов ряда и среднего значения. Однако преобразование 
формулы позволяет вычислять <т 2 за один проход. 

Объявление іуресіеГ используется для локализации ссылки на тот факт, что данные 
имеют тип іп*. Например, іуресІеГ и описание функции гапсМшп могут содержаться в 
отдельном файле (на который ссылается директива іпсіисіе). Впоследствии можно 
будет использовать программу для тестирования случайных чисел другого типа путем 
изменения этого файла (см. текст). 
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Независимо от типа данных программа использует тип іпі для индексов и тип ІІоаі для 
вычисления среднего и среднеквадратичного отклонения. Она действует только при 
условии, что заданы преобразования данных в тип Яоа*. 

#іпс1и<іе <іо8‘Ьгеаші. Ь> 

#іпс1и<іе <8-Ь<і1іЬ.1і> 

#±пс1исіе <таѣЪ. . Ь> 

•Ьуресіеі: іпѣ ЫитЬег ; 

ЫшпЬег гапсШит ( ) 

{ геѣигп гап<і() ; } 

іп-Ь таіп(іпі: агдс, сЬаг *агдѵ[]) 

{ іпі: N = аЪоі (агдѵ [1] ) ; 

^Іоаѣ ті = 0.0, т 2 = 0.0; 

±от (іп-Ь і = 0; і < Ы; і++) 

{ 

ЫишЬег х = гапсШшп() ; 
ті += ( (ігіоаі:) х)/Ы; 

т2 += ( (Іііоа-Ь) х*х)/Ы; 

} 

соиі: « " Аѵд. : " « ті « епсіі; 

соиі: « "5і:сі. сіеѵ. : " « здгі: (т2-т1*т1) « епсіі; 


Этот пример не представляет полного решения задачи разработки программ вы- 
числения средних величин и среднеквадратичных отклонений, не зависящих от типа 
данных; подобная цель и не ставилась. Например, программа требует преобразова- 
ния чисел типа МшпЪег в тип Яоаі, чтобы они могли участвовать в вычислении сред- 
него значения и отклонения. В данном виде программа зависима от приведения к 
типу Яоаі, присущего встроенному типу іпі. Вообще говоря, можно явно описать та- 
кое приведение для любого типа, обозначаемого именем МшпЪег. 

При попытке выполнения каких-либо действий, помимо арифметических, вскоре 
возникнет необходимость добавления операций к типу данных. Например, может 
потребоваться распечатка чисел. При любой попытке разработать тип данных, осно- 
ванный на идентификации важных операций программы, необходимо отыскать ком- 
промисс между уровнем обобщения и простотой реализации. 

Имеет смысл подробно остановиться на способе изменения типа данных таким 
образом, чтобы программа 3.2 обрабатывала другие типы чисел, скажем, Доаі вмес- 
то іпі Язык С++ предлагает ряд механизмов, позволяющих воспользоваться тем, что 
ссылки на тип данных локализованы. Для такой небольшой программы проще все- 
го сделать копию файла, затем изменить объявление ІуресІеГ іпі МшпЪег на ІуреёеГ Яоаі 
МшпЪег и тело процедуры гашІМит, чтобы оно содержало оператор геіигп 1.0*гапс1()/ 
КАМБ_МАХ (при этом будут возвращаться случайные числа с плавающей точкой в 
диапазоне от 0 до 1). Однако даже для такой простой программы этот подход неудо- 
бен, поскольку подразумевает наличия двух копий программы. Все последующие из- 
менения программы должны быть отражены в обеих копиях. В С++ существует 
альтернативное решение — поместить описания ІурейеГ и гашІМшп в отдельный файл 
заголовков (Ъеабег Гііе) с именем, например, МшпЪег.Ь и заменить их директивой 


#іпс1исіе "НшпЪег.Ъ" 
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в коде программы 3.2. Затем можно создать второй файл заголовков с другими опи- 
саниями іурегіеГ и гашПЧшп и использовать главную программу 3.2 безо всяких изме- 
нений с любым из файлов, переименовав требуемый файл в ІЧитЬег.Ь. 

Третий метод рекомендован и широко распространен в программировании на С, 
С++ и других языках. Он предусматривает разбиение программы на три файла: 

■ Интерфейс , где определяется структура данных и объявляются функции, ис- 
пользуемые для управления этой структурой 

■ Реализация функций, объявленных в интерфейсе 

■ Клиентская программа , которая использует функции, объявленные в интерфей- 
се, для реализации более высокого уровня абстракции 

Подобная организация позволяет использовать программу 3.2 с целыми и значе- 
ниями с плавающей точкой, либо расширить ее для обработки других типов данных 
путем простой компиляции совместно со специальным кодом для поддерживаемого 
типа данных. В последующих абзацах рассматриваются изменения, необходимые для 
данного примера. 

Под термином "интерфейс" подразумевается описание типа данных. Это соглаше- 
ние между клиентской программой и программой реализации. Клиент соглашается 
обращаться к данным только через функции, определенные в интерфейсе, а реали- 
зация соглашается предоставлять необходимые функции. 

Для программы 3.2 интерфейс должен включать следующие объявления: 

ѣуре<іе€ іпѣ ИишЬег ; 

ЗДипЬег гапсШшп() ; 

Первая строка указывает на тип обрабатываемых данных, а вторая — на опера- 
ции, связанные с этим типом. Этот код можно поместить в файл с именем, например, 
ІЧитЬег.Іі, где на него будут независимо ссылаться клиенты и реализации. 

Реализация интерфейса ]ЧитЪег.1і заключена в функции гашИЧит, которая может 
содержать следующий код: 

#іпс1исІе <зѣсі1іЪ . Ь> 

#іпс1шіе "НшпЬег.Ь" 

ЫшпЪег гапсШшп ( ) 

{ геЪигп гапсЦ) ; } 

Первая строка ссылается на предоставленный системой интерфейс, который опи- 
сывает функцию гаш1(). Вторая строка ссылается на реализуемый интерфейс (она 
включена для проверки того, что реализуемая и объявленная функции имеют одина- 
ковый тип). Две последних строки представляют собой код функции. Этот код мож- 
но сохранить в файле, например, іпі.с. Реальный код функции гапсі содержится в 
стандартной библиотеке времени выполнения С++. 

Клиентская программа, соответствующая примеру 3.2, будет начинаться с дирек- 
тив іпсіисіе для интерфейсов, где объявлены используемые функции: 

#іпсГи<іе <іозѣгеат.Ъ> 

#іпсГшіе <хпа№.Ь> 

#іпсГшіе "НшпЪег.Ь" 
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После этих трех строк может следовать описание функции таіп из программы 3.2. 
Этот код может быть сохранен в файле с именем, например, аѵ§.с. 

Результатом совместной компиляции программ аѵ§.с и іпі.с будут те же функци- 
ональные возможности, что и реализуемые программой 3.2. Но рассматриваемая ре- 
ализация более гибкая, поскольку связанный с типом данных код инкапсулирован и 
может использоваться другими клиентскими программами, а также потому, что про- 
грамма аѵ§.с без изменений может использоваться с другими типами данных. По-пре- 
жнему предполагается, что любой тип, используемый под именем ІЧшпЪег, преобра- 
зуется в тип Яоаі. С++ позволяет описывать это преобразование, а также описывать 
желаемые встроенные операторы (подобные += и <<) как часть нового типа данных. 
Повторное использование имен функций или операторов в различных типах данных 
называется перегрузкой (оѵегіоайіпр ) . 

Помимо рассмотренного сценария "клиент-интерфейс-реализация" существует 
много других способов поддержки различных типов данных. Эта концепция выходит 
за рамки определенного языка программирования, либо метода реализации. Действи- 
тельно, поскольку имена файлов не являются частью языка, возможно, придется из- 
менить рекомендованный выше простой метод для функционирования в конкретной 
среде С++ (в системах существуют различные соглашения или правила, относящие- 
ся к содержимому файлов заголовков, а некоторые системы требуют определенных 
расширений, таких как .С или .схх для файлов программ). Одна из наиболее важных 
особенностей С++ заключается в понятии классов , которые предоставляют удобный 
метод описания и реализации типов данных. В этой главе за основу взято простое 
решение, но впоследствии практически повсеместно будут использоваться классы. 
Глава 4 посвящена применению классов для создания базовых типов данных, что важ- 
но для разработки алгоритмов. Кроме того, подробно освещается взаимоотношение 
между классами С++ и парадигмой "клиент-интерфейс-реализация". 

Главная причина существования этих механизмов состоит в обеспечении поддер- 
жки групп программистов, решающих задачи создания и содержания крупных систем 
приложений. Однако материал главы важен потому, что на протяжении книги ис- 
пользуются механизмы создания естественных способов замены усовершенствован- 
ных реализаций алгоритмов и структур данных старыми методами. Это позволяет 
сравнивать различные алгоритмы для одних и тех же прикладных задач. 

Часто приходится создавать структуры данных, которые позволяют обрабатывать 
наборы данных. Структуры данных могут быть большими, либо иметь широкое при- 
менение. Поэтому необходима идентификация важных операций, которые будут 
выполняться над данными, а также знание методов эффективной реализации этих 
операций. Первые шаги выполнения этих задач заключаются в процессе последова- 
тельного создания абстракций более высокого уровня из абстракций низшего уров- 
ня. Этот процесс представляет собой удобный способ разработки все более мощных 
программ. Простейшим механизмом группировки данных в С++ являются массивы 
(аггауз), которые рассматриваются в разделе 3.2, и структуры (зігисіигез ) , о чем пой- 
дет речь ниже. 

Структуры представляют собой сгруппированные типы, используемые для описа- 
ния наборов данных. Этот подход позволяет управлять всем набором как единым 
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модулем, при этом сохраняется возможность ссылаться на отдельные компоненты по 
именам. В языке С++ можно использовать структуру для описания нового типа дан- 
ных, а также задавать операции для него. Другими словами, осуществимо управление 
сгруппированными данными почти так же, как встроенными типами, вроде іпі и Доаі. 
Можно присваивать имена переменным и передавать эти переменные в качестве 
аргументов функций, а также выполнять множество других операций, как будет по- 
казано ниже. 

Программа 3.3 Интерфейс типа данных роіпі 

Этот интерфейс описывает тип данных, состоящий из набора значений "пары чисел с 
плавающей точкой" и операции "вычисление расстояния между двумя точками". 

зігисі роіпі { Ноаі х; Ііоаі у; }; 

Ііоаі сіізіапсе (роіпі, роіпі) ; 


При обработке геометрических данных используется абстрактное понятие точки на 
плоскости. Следовательно, можно ввести строку 

зігисі роіпі { Ноаі х; Ноаі у; }; 

для указания, что имя роіпі будет использоваться для ссылки на пары чисел с плава- 
ющей точкой. Например, выражение 

зігисі роіпі а, Ь; 

объявляет две переменные этого типа. Можно ссылаться по имени на отдельные чле- 
ны структуры. Например, операторы 

а.х = 1.0; а. у = 1.0; Ъ.х = 4.0; Ъ.у = 5.0; 

устанавливают значения переменных таким образом, что а представляет точку (1,1), 
а Ь — точку (4,5). 

Кроме того, можно передавать структуры функциям как аргументы. Например, 
код 

Ноаі сіізіапсе (роіпі а, роіпі Ь) 

{ Ііоаі сіх = а.х - Ъ.х, сіу = а. у - Ъ.у; 
геіигп здг1(сіх*сіх + сіу*сіу) ; 

} 

описывает функцию, которая вычисляет расстояние между двумя точками на плоско- 
сти. Это демонстрирует естественный способ использования структур для группиров- 
ки данных в типовых приложениях. 

Программа 3.3 содержит интерфейс, который воплощает описание типа данных 
для точек на плоскости: он использует структуру для представления точек и включа- 
ет операцию вычисления расстояния между двумя точками. Программа 3.4 — это фун- 
кция, которая реализует операцию. Подобная схема "интерфейс-реализация” исполь- 
зуется для описания типов данных при любой возможности, поскольку в ней 
описание инкапсулировано (в интерфейсе), а реализация выражена в прямой и по- 
нятной форме. Тип данных используется в клиентской программе за счет включения 
интерфейса и компиляции реализации совместно с клиентом (либо с помощью фун- 
кций раздельной компиляции). Программа реализации 3.4 включает интерфейс (про- 
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грамму 3.3) для обеспечения соответствия описания функции потребностям клиента. 
Смысл в том, чтобы клиентские программы вполне могли обрабатывать точки без 
необходимости принимать какие-либо допущения об их представлении. В главе 4 бу- 
дет показано, как осуществить следующий этап разделения клиента и реализации. 

Пример структуры роіпі прост и включает два элемента одного типа. Обычно в 
структурах смешиваются различные типы данных. Подобные структуры будут часто 
встречаться в оставшейся части главы. 

Структуры позволяют группировать данные. Кроме того, в языке С++ можно свя- 
зывать данные с операциями, которые должны с ними выполняться, путем исполь- 
зования механизма классов. Подробности описания классов с множеством примеров 
приводятся в главе 4. С применением классов можно даже использовать программу, 
такую как 3.2, для обработки элементов типа роіпі после описания соответствующих 
арифметических операций и преобразований типов для точек. Эта возможность ис- 
пользования ранее описанных операций высокого уровня абстракции даже для вновь 
созданных типов данных является одной из важных и выдающихся особенностей про- 
граммирования на С++. Она основана на способности непосредственного описания 
собственных типов данных средствами языка. При этом не только связываются дан- 
ные со структурой, но и точно задаются операции над данными (а также структуры 
данных и алгоритмы, которые их поддерживают) посредством классов. Классы фор- 
мируют основу рассматриваемых в книге реализаций. Однако перед детальным об- 
зором описания и использования классов (в главе 4) необходимо рассмотреть ряд 
низкоуровневых механизмов для управления данными и объединения их. 

Помимо предоставления основных типов іп*, Доаі и сЬаг, а также возможности 
встраивать их в составные типы с помощью оператора зігисі, С++ допускает косвен- 
ное управление данными. Указатель (роШег) — это ссылка на объект в памяти (обыч- 
но реализуется в виде машинного адреса). Чтобы объявить переменную а как указа- 
тель на целое значение, используется выражение іпі *а. Можно ссылаться на само 
целое значение с помощью записи *а. Допускается объявление указателей на любой 
тип данных. Унарный оператор & предоставляет машинный адрес объекта. Он удо- 
бен для инициализации указателей. Например, выражение *&а означает то же, что а. 

Программа 3.4 Реализация структуры данных роіпі 

Здесь содержится описание функции гіізіапсе, объявленной в программе 3.3. 

Используется библиотечная функция вычисления квадратного корня. 

#іпс 1 и<іе <1113^11. Ь> 

#іпс 1 исіе '’Роіп'Ь.Ь" 

^Іоаѣ Цізѣапсе (роіп-Ь а, роіпѣ Ь) 

{ іііоаі: сіх = а.х - Ъ.х, сіу = а. у - Ъ.у; 
геілігп здгѣ(сіх*с1х + сіу * сіу ) ; 

} 


Косвенная ссылка на объект через указатель часто удобнее прямой ссылки, а также 
может оказаться более эффективной, особенно для больших объектов. Множество 
примеров этого преимущества приводится в разделах с 3.3 по 3.7. Как будет показа- 
но, еще важнее возможность использования указателей на структуру данных спосо- 
бами, которые поддерживают эффективные алгоритмы обработки данных. Указате- 
ли служат основой многих структур данных и алгоритмов. 
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Простой и важный пример использования указателей связан с описанием функ- 
ции, которая должна возвращать множество значений. Например, следующая функ- 
ция (использующая функции §^гі и а(ап2 из стандартной библиотеки) преобразует 
декартовы координаты в полярные: 

роіаг (ігіоаі х, ігіоаі у, ігіоаі *г, Ноаі *1Ье1а) 

{ *г * здг1(х*х + у*у) ; *1Ье1а = а!ап2(у, х) ; } 

Аргументы передаются этой функции по значению — если функция присваивает 
новое значение переменной аргумента, эта операция является локальной и скрыта от 
вызывающей функции. Поэтому функция не может изменять указатели чисел с пла- 
вающей точкой г и іЬеіа, но способна изменять значения чисел с помощью косвен- 
ной ссылки. Например, если вызывающая функция содержит объявление Поаі а, Ь, 
вызов функции 

ро1аг(1.0, 1.0, &а, &Ь) 

приведет к тому, что для а установится значение 1.414214 (^2 ), а для Ь — значение 
0.785398 (я/4). Оператор & позволяет передавать адреса а и Ь в функцию, которая 
обрабатывает эти аргументы как указатели. 

В языке С++ можно достичь того же результата посредством ссылочных парамет- 
ров: 

ро1аг(11оа! х, ігіоаі у, 11оа1& г, 11оа1& ІЬеІа) 

{ г = здг!(х*х + у*у) ; ІЬеІа = а!ап2(у, х) ; } 

Запись Лоаі& означает "ссылка на ПоаГ. Ссылки можно рассматривать как встро- 
енные указатели, которые автоматически сопровождаются при каждом использова- 
нии. Например, в этой функции ссылка на Ліеіа означает ссылку на любое значение 
Поаі, используемое для второго аргумента вызывающей функции. Если вызывающая 
функция содержит объявление Яоаі а, Ь, как в примере из предыдущего абзаца, в ре- 
зультате вызова функции ро1аг(1.0, 1.0, а, Ь) переменной а будет присвоено значе- 
ние 1.414214, а переменной Ь — значение 0.785398. 

До сих пор речь в основном шла об описании отдельных информационных эле- 
ментов, обрабатываемых программами. В большинстве случаев интерес представля- 
ет работа с потенциально крупными наборами данных, и сейчас мы обратимся к ос- 
новным методам достижения этой цели. Обычно термин структура данных относится 
к механизму организации информации для обеспечения удобных и эффективных 
средств управления и доступа к ней. Многие важные структуры данных основаны на 
одном из двух элементарных решений, рассматриваемых ниже, либо на обоих сра- 
зу. Массив (аггау) служит средством организации объектов фиксированным и после- 
довательным образом, что более применимо для доступа, чем для управления. Спи- 
сок (Ші) позволяет организовать объекты в виде логической последовательности, что 
более приемлемо для управления, чем для доступа. 

Упражнения 

>3.1 Найти наибольшее и наименьшее числа, которые можно представить типами 

іпі, 1оп§ іпі, 8Ьогі іпі, Яоа* и гіоиЫе в своей среде программирования. 
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3.2 Протестировать генератор случайных чисел в своей системе. Для этого сгене- 
рировать N случайных целых чисел в диапазоне от 0 до г — 1 с помошью функции 
гапс1() % г, вычислить среднее значение и среднеквадратичное отклонение для 
/- = 10, 100 и 1000 и N — ІО 3 , ІО 4 , 10 5 и ІО 6 . 

3.3 Протестировать генератор случайных чисел в своей системе. Для этого сгене- 
рировать N случайных чисел типа сіоиЪІе в диапазоне от 0 до 1 , преобразуя их в це- 
лые числа диапазона от 0 до г — 1 путем умножения на г и усечения результата. За- 
тем вычислить среднее значение и среднеквадратичное отклонение для г = 10, 100 
и 1000 и N= 10 3 , ІО 4 , ІО 5 и ІО 6 . 

о 3.4 Выполнить упражнения 3.2 и 3.3 для г — 2, 4 и 16. 

3.5 Реализовать функции, позволяющие применять программу 3.2 для случайных 
разрядов (чисел, которые могут принимать значения только 0 и 1). 

3.6 Описать структуру, пригодную для представления игральных карт. 

3.7 Написать клиентскую программу, которая использует типы данных программ 

3.3 и 3.4, для следующей задачи: чтение последовательности точек (пар чисел с пла- 
вающей точкой) из стандартного устройства ввода и поиск точки, ближайшей к 
первой. 

• 3.8 Добавить функцию к типу данных роіпі (программы 3.3 и 3.4), которая опре- 
деляет, лежат ли три точки на одной прямой, с допуском ІО -4 . Предположите, что 
все точки находятся в единичном квадрате. 

• 3.9 Описать тип данных для треугольников , находящихся в единичном квадрате, 
включая функцию вычисления площади треугольника. Затем написать клиентскую 
программу, которая генерирует случайные тройки пар чисел с плавающей точкой 
от 0 до 1 и вычисляет среднюю площадь сгенерированных треугольников. 

3.2 Массивы 

Возможно, наиболее фундаментальной структурой данных является массив , кото- 
рый определен как примитив в С++ и большинстве других языков программирова- 
ния. В примерах главы 1 уже встречалось использование массива в качестве основы 
разработки эффективного алгоритма. В этом разделе представлен еще ряд примеров. 

Массив является фиксированным набором данных одного типа, которые хранятся 
в виде непрерывного ряда. Доступ к данным осуществляется по индексам. Для ссылки 
на і-тый элемент массива используется выражение а[і]. Перед выполнением ссылки 
программист должен в позиции а[і] массива сохранить некоторое значение. Кроме 
того, в языке С++ индексы должны быть неотрицательными и иметь величину мень- 
шую, чем размер массива. Пренебрежение этими правилами является распространен- 
ной ошибкой программирования. 

Фундаментальность массивов, как структур данных, заключается в их прямом со- 
ответствии системам памяти почти на всех компьютерах. Для извлечения содержимого 
слова из памяти машинный язык требует указания адреса. Таким образом, всю память 
компьютера можно рассматривать как массив, где адреса памяти соответствуют ин- 
дексам. Большинство процессоров машинного языка транслируют программы, ис- 
пользующие массивы, в эффективные программы на машинном языке, в которых 
осуществляется прямой доступ к памяти. Можно с уверенностью сказать, что доступ 
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к массиву с помощью выражения а[і] требует неболь- 
шого количества машинных команд. 

Простой пример использования массива демонстри- 
руется в программе 3.5, которая распечатывает все про- 
стые числа, меньшие 10000. Используемый метод вос- 
ходит к третьему столетию до н.э. и называется 
решетом Эратосфена (см. рис. 3.1). Это типичный алго- 
ритм, где используется возможность быстрого доступа 
к любому элементу массива по его индексу. Реализова- 
но четыре цикла, из которых три выполняют последо- 
вательный доступ к массиву от первого до последнего 
элемента. В четвертом цикле перебирается весь мас- 
сив, по і элементов за один раз. В некоторых случаях 
предпочтительна последовательная обработка, в других 
— используется последовательное упорядочение, по- 
скольку оно не хуже других методов. Например, мож- 
но первый цикл программы 3.5 изменить следующим 
образом: 

*ог (і = N-1; і > 1, і — ) а [і] = 1; 

что никак не отразится на вычислениях. Подобным же 
образом можно изменить порядок обхода во внутрен- 
нем цикле, либо изменить последний цикл, чтобы пе- 
чатать простые числа в порядке убывания. Однако 
нельзя изменить порядок обхода во внешнем цикле 
основных вычислений, поскольку в нем обрабатыва- 
ются все целые числа, меньшие і, перед проверкой эле- 
мента а[і] на соответствие простому числу. 

Мы не будем подробно анализировать время вы- 
полнения программы 3.5, дабы не углубляться в теорию 
чисел. Однако очевидно, что время выполнения про- 
порционально 

N + N/2 + N/3 + и/5 + и/і + и/и + ... 

что меньше 

и + и/2 + и/ з + и/ 4 + ... = NН N ~ и іптѵ. 

Одно из отличительных свойств С++ состоит в том, 
что имя массива генерирует указатель первого элемен- 
та массива (имеющего индекс 0). Более того, допуска- 
ются простые арифметические операции с указателями : 
если р является указателем на объект определенного 
типа, можно записать код, предполагающий последова- 
тельное расположение объектов данного типа. При 
этом для ссылки на первый объект используется запись 


і 2 3 5 а[і] 


2 1 1 

3 1 1 

4 10 

5 1 1 

6 10 

7 1 1 

8 10 

9 1 О 

10 1 О 

11 1 1 

12 1 О О 

13 1 1 

14 1 О 

15 1 О 

16 1 О 

17 1 1 

18 1 О О 

19 1 1 

20 1 О 

21 1 О 

22 1 О 

23 1 1 

24 1 О О 

25 1 О 

26 1 О 

27 1 О 

28 1 О 

29 1 1 

30 1 О О О 

31 1 1 


РИСУНОК 3.1 РЕШЕТО 
ЭРАТОСФЕНА 

Для вычисления простых чисел , 
меньших 32, все элементы 
массива инициализируются с 
присвоением значения 1 (второй 
столбец). Это указывает, что 
пока не обнаружено ни одно 
число, которое не является 
простым (элементы а[0] и а[1] 
не используются и не показаны). 
Затем присваивается значение 0 
тем элементам массива, 
индексы которых являются 
произведениями чисел 2, 3 и 5, 
поскольку эти произведения не 
являются простыми числами. 
Индексы элементов массива, у 
которых сохранилось значение 1, 
являются простыми числами 
(крайний правый столбец). 
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*р, на второй — *<р+і), на третий — *(р+2) и т.д. Другими словами, записи *(а+і) 
и а[і] в языке С++ эквивалентны. 

Это создает альтернативный механизм доступа к объектам массивов, который 
иногда оказывается удобнее индексации. Он чаще всего используется для массивов 
символов (строк). Мы вернемся к этому вопросу в разделе 3.6. 

Программа 3.5 Решето Эратосфена 

Цель программы заключается в присвоении элементам а[і] значения 1, если і простое 
число, и значения 0 в противном случае. Сначала значение 1 присваивается всем 
элементам массива. Затем присваивается значение 0 элементам, индексы которых не 
являются простыми числами (представляют собой произведения известных простых 
чисел). Если после этого некоторый элемент а[і] сохраняет значение 1, его индекс 
является простым числом. 

Поскольку массив состоит из элементов простейшего типа, принимающих значения О 
или 1, для экономии пространства имеет смысл явно описать массив бит вместо 
массива целых чисел. Кроме того, в некоторых средах программирования требуется, 
чтобы массив был глобальным, если значение N велико, либо можно выделять 
пространство для массива динамически (см. программу 3.6). 

#іпс1исіе <іоз1:геат. Ъ> 
зіаііс сопзЪ іп'Ь N = 1000; 
іпѣ та±п() 

{ іпі і, а[Ы] ; 

^ог (і = 2; і < Ы; і++) а[і] = 1; 

±ог ( і = 2 ; і < Ы; і++) 
і* (а [і] ) 

5ог (іпѣ ^ = і; з*і < И; э++) а[і*^] = 0; 

^ог (і = 2; і < Ы; і++) 

(а[і]> соиѣ « " " « і; 
соиѣ « епсіі ; 

} 


Подобно структурам, указатели массивов важны тем, что позволяют эффективно 
управлять массивами как высокоуровневыми объектами. 

В частности, можно передать указатель на массив как аргумент функции. Это по- 
зволит функции обращаться к объектам массива без необходимости создания копии 
всего массива. Такая возможность необходима при написании программ, управляю- 
щих крупными массивами. Например, функции поиска, рассмотренные в разделе 2.6, 
используют эту особенность. Другие примеры содержатся в разделе 3.7. 

В программе 3.5 предполагается, что размер массива должен быть известен зара- 
нее. Чтобы выполнить программу для другого значения IV, следует изменить кон- 
станту N и повторно скомпилировать программу. В программе 3.6 показано альтер- 
нативное решение: пользователь может ввести значение ІЧ, после чего будут 
выводиться простые числа, меньшие этой величины. Применены два основных ме- 
ханизма С++. В обоих осуществляется передача функциям массивов в качестве аргу- 
ментов. Первый механизм обеспечивает передачу аргументов командной строки глав- 
ным программам в массиве аг§ѵ с размером аг§с. Массив аг§ѵ является составным и 
включает объекты, которые сами представляют собой массивы (строки). Обзор мас- 
сивов отложим до раздела 3.7, а пока примем на веру, что переменная N принимает 
значение, вводимое пользователем при выполнении программы. 
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Второй базовый механизм — оператор пен'[], распределяющий область памяти, не- 
обходимый для массива во время выполнения. В нашем особом случае он возвращает 
указатель на массив. В некоторых языках программирования динамическое выделе- 
ние памяти массивам затруднено либо вообще невозможно. В других языках этот 
процесс выполняется автоматически. Динамическое распределение памяти служит 
важной функцией программ, управляющих несколькими массивами, отдельные из 
которых могут иметь большой размер. В данном случае необходимо без выделения 
памяти предварительно объявить массив с размером, не меньшим любого значения, 
которое допускается при вводе. В сложной программе, где может использоваться 
много массивов, выполнять эти действия для каждого из них затруднительно. Обыч- 
но используется код, подобный коду программы 3.6, по причине его гибкости. Одна- 
ко в определенных приложениях, где размер массива известен, вполне применимы 
простые решения, такие как в программе 3.5. 

Программа 3.6 Динамическое выделение памяти массиву 

Для изменения максимального значения простого числа, вычисляемого в программе 
3.5, необходима повторная компиляция программы. Вместо этого можно принимать 
максимальное значение из командной строки и использовать его для выделения 
памяти массиву во время выполнения с помощью оператора С++ пеѵѵ[]. Например, 
если скомпилировать программу и ввести в командной строке 1000000, будут получены 
все целые числа, меньшие миллиона (если компьютер достаточно мощный для таких 
вычислений). Для отладки программы достаточно значения 100 (что позволит 
сэкономить время и пространство памяти). Этот подход в дальнейшем используется 
часто, хотя для краткости проверка на перерасход памяти будет опускаться. 

іиѣ таіп(іігЬ агдс, сЪаг *агдѵ[]) 

{ іхгЬ і, N = аѣоі (агдѵ [1] ) ; 
іпі: *а = пеѵ іпѣСК] ; 

(а == 0) 

{ соиѣ « "оиѣ тетогу" « ехиіі; ге’Ьигп 0; } 


Массивы не только отражают низкоуровневые средства для доступа к данным па- 
мяти в большинстве компьютеров. Они широко распространены еще и потому, что 
прямо соответствуют естественным методам организации данных для приложений. 
Например, массивы прямо соответствуют векторам (математический термин для ин- 
дексированных списков объектов). 

Стандартная библиотека С++ содержит класс Уесіог — абстрактный объект, кото- 
рый можно индексировать подобно массиву (с необязательной автоматической про- 
веркой соответствия диапазону). Однако он также способен к расширению и усече- 
нию. Это позволяет воспользоваться преимуществами массивов, но возлагать задачи 
проверки допустимости индексов и управления памятью на систему. Поскольку в этой 
книге много внимания уделяется быстродействию, будем избегать скрытых недостат- 
ков, связанных с использованием массивов, указывая, что в коде могут быть приме- 
нены также векторы (см. упражнение 3.14). 

Программа 3.7 служит примером эмуляции, использующей массивы. Моделируется 
последовательность попыток Бернулли (ВегпоиПі ігіаіз) — известная абстрактная кон- 
цепция теории вероятностей. Если подбросить монету ТѴраз, вероятность выпадения 
к решек составляет 
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Здесь используется нормальная аппроксимация — 
известная кривая в форме колокола. На рис. 3.2 
показан вывод программы 3.7 для 1000 экспери- 
ментов подбрасывания монеты по 32 раза. Допол- 
нительные сведения о распределении Бернулли и 
нормальной аппроксимации можно найти в любом 
учебнике по теории вероятностей. Эти понятия 
вновь встретятся в главе 13. Пока остановимся на 
вычислениях, в которых используются числа и ин- 
дексы массива для определения частоты выпада- 
ний. Способность поддерживать этот вид операций 
— одно из основных достоинств массивов. 

Программа 3.7 Имитация подбрасываний монеты 

Если подбросить монету N раз, ожидается выпадение 
N/2 решек, но это число может быть любым в 
диапазоне от 0 до N. Данная программа выполняет 
эксперимент М раз, принимая аргументы М и N из 
командной строки. Она использует массив і для 
отслеживания частоты выпадений "і решек" для 
О < і < Ы, а затем распечатывает гистограмму 
результатов эксперимента. Каждые 10 выпаданий 
обозначаются одной звездочкой. 


Основная операция программы — индексация массива 
по вычисляемым значениям — важный фактор 
эффективности многих вычислительных процедур. 


по вычисляемым значениям 


важный 


#іпс1и<іе <іозѣгеат. Ь> 

#іпс1и<іе <зѣ<і1іЪ.1і> 
іпѣ Ъеасіз ( ) 

{ геѣигп гапсі() < НАНЦ__МАХ/ 2 ; } 
іпѣ таіп(іп1: агдс, сЬаг *агдѵ[]) 

{ іпѣ і, 3, спЪ; 
іпѣ N = аѣоі (агдѵ[ 1 ] ) , 

М = аѣоі (агдѵ [ 2 ] ) ; 
іпЪ = пеѵг іпѣ[Н+1] ; 

^ог (3 = 0; з <= Ы; з++) ^[3] = 0; 

Нот (і = 0 ; і < М; і++, ^[сп'ЬІ+Ч-) 
^ог (спЪ = 0, з = 0; з <= 1$; 3++) 
(ЬеасізО) спѣ++; 

^ог (з = 0; з <= И; 3++) 


** \ 

******Ч^ 

******** 

************>< 

************** 

* * * * * * * * * # * * 4с * 

************** 
*********** У 

******* 

****** 

*** / 

***/ 


РИСУНОК 3.2 ИМИТАЦИЯ 
ПОДБРАСЫВАНИЙ МОНЕТЫ 

Эта таблица демонстрирует 
результат выполнения программы 3 . 7 
при N — 32 и М — 1000. 

Имитируется 1000 экспериментов 
подбрасывания монеты по 32 раза. 
Количество выпаданий решки 
аппроксимируется нормальной 
функцией распределения , график 
которой показан поверх данных. 


і* (^[ 3 ] == 0) соиі « " . " ; 

^ог (і = 0 ; і < ^[ 3 ]; і+= 10 ) сои-Ь 
соиѣ « епсіі; 


”*«• . 


1 
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В программах 3.5 и 3.7 вычисляются индексы массива по имеющимся данным. В 
некотором смысле, когда используется вычисленное значение для доступа к масси- 
ву размером 7Ѵ, с помощью единственной операции обрабатывается 7Ѵ вероятностей. 
Это существенно повышает эффективность. В дальнейшем будут рассматриваться ал- 
горитмы, где массивы используются подобным же образом. 

Массивы применяются для организации всего многообразия объектов, а не толь- 
ко целых чисел. В языке С++ можно объявлять массивы данных любых встроенных 
либо определяемых пользователем типов (другими словами, составных объектов, 
объявленных как структуры). Программа 3.8 иллюстрирует использование массива 
структур для точек на плоскости. Описание структуры рассматривалось в разделе 3.1. 
Кроме того, демонстрируется типовое использование массивов: организованное хра- 
нение данных при обеспечении быстрого доступа к ним в процессе вычислений. 

Между прочим, программа 3.8 также интересна в качестве прототипа алгоритма 
проверки всех пар набора из N элементов данных, в результате чего затрачивается 
время, пропорциональное 7Ѵ 2 . В этой книге при любом использовании подобных ал- 
горитмов изыскиваются усовершенствования, поскольку с увеличением значения N 
данное решение становится труднореализуемым. В разделе 3.7 демонстрируется ис- 
пользование составных структур данных для вычислений в линейном масштабе вре- 
мени, соответствующих данному примеру. 

Программа 3.8 Вычисление ближайшей точки 

Эта программа демонстрирует использование массива структур и представляет 
типичный случай, когда элементы сохраняются в массиве для последующей обработки 
в процессе некоторых вычислений. Подсчитывается количество пар из N 
сгенерированных случайным образом точек на плоскости, соединяемых прямой, длина 
которой меньше сі. При этом используется тип данных для точек, описанный в разделе 
3.1. Время выполнения составляет 0(Н 2 ), поэтому программа не может применяться для 
больших значений N. Программа 3.20 обеспечивает более быстрое решение. 

#±пс1исіе <шаѣЪ . Ь> 

#іпс1исіе <іозѣгеат. Ь> 

#іпс1исіе <з-Ьсі1іЬ.1і> 

#іпс1исіе "Роіп-Ь.Ь" 
ііІоа'Ь гапЦПоа'Ь ( ) 

{ геѣигп 1 . 0*гапсі() /КА*ГО__МАХ; } 
іп*Ь таіп(іп1: агдс, сЬаг *агдѵ[]) 

{ ^Іоаі: сі = аЪо± (агдѵ [2] ) ; 
іп-Ь і, спѣ = О, N = аѣоі (агдѵ [1] ) ; 
роіпѣ *а = пеѵг роіпѣ[Ы] ; 
і:ог (і = 0; і < Ы; і++) 

{ а[і].х = гапЦПоаЪ ( ) ; а[і].у = гапЦЕІоа-Ь ( ) ; } 

ЗЕог (і = 0; і < Ы; і++) 

^ог (іпѣ з = і+1; з < Ы; 3 ++) 

(сИзѣапсе (а [і] , а[з]) < сі) сп1:++; 

соиѣ « спѣ « " раігз ѵгі'Ыііп " « сі « епсіі; 

> 


Подобным образом можно создавать составные типы произвольной сложности: не 
только массивы структур, но и массивы массивов либо структур, содержащих масси- 
вы. Эти возможности будут подробно рассматриваться в разделе 3.7. Однако сначала 
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ознакомимся со связными списками (Ііпкесі ІШз), которые служат главной альтернати- 
вой массивов при организации коллекций объектов. 

Упражнения 

о ЗЛО Предположим, а объявлена как іпі а[99]. Определить содержимое массива пос- 
ле выполнения следующих двух операторов: 

Нот (і = 0; і < 99; і++) а[і] = 98-і; 
іог (і = 0; і < 99; і++) а[і] = а[а[і]]; 

ЗЛ1 Изменить реализацию решета Эратосфена (программа 3.5) для использования 
массива (і) символов и (іі) разрядов. Определить влияние этих изменений на рас- 
ход пространства памяти и времени, используемого программой. 

О ЗЛ2 С помощью решета Эратосфена определить количество простых чисел, мень- 
ших УѴ, для УѴ = ІО 3 , ІО 4 , ІО 5 и ІО 6 . 

о ЗЛЗ С помощью решета Эратосфена построить график зависимости УѴот количе- 
ства простых чисел, меньших УѴ, для значений УѴот 1 до 1000. 

о ЗЛ4 Стандартная библиотека С++ в качестве альтернативы массивам содержит тип 
данных Ѵесіог. Найти способ использования этого типа данных в своей системе и 
определить его влияние на время выполнения, если заменить в программе 3.5 мас- 
сив типом Ѵесіог. 

• ЗЛ5 Эмпирически определить эффект удаления проверки а[і] из внутреннего цик- 
ла программы 3.5 для УѴ= 10 3 , ІО 4 , 10 5 и ІО 6 и объяснить его. 

[> ЗЛ6 Написать программу вычисления количества различных целых чисел, мень- 
ших 1000, которые встречаются в потоке ввода. 

о 3.17 Написать программу, эмпирически определяющую количество случайных по- 
ложительных целых, меньших 1000, генерацию которых можно ожидать перед по- 
лучением повторного значения. 

о 3.18 Написать программу, эмпирически определяющую количество случайных по- 
ложительных целых, меньших 1000, генерацию которых можно ожидать перед по- 
лучением каждого значения хотя бы один раз. 

3.19 Изменить программу 3.7 для имитации случая, когда решка выпадает с веро- 
ятностью р. Выполнить 1000 попыток эксперимента с 32 подбрасываниями при 
р = 1/6 для получения вывода, который можно сравнить с рис. 3.2. 

3.20 Изменить программу 3.7 для имитации случая, когда решка выпадает с ве- 
роятностью Х/К Выполнить 1000 попыток эксперимента с 32 подбрасываниями 
для получения вывода, который можно сравнить с рис. 3.2. Получается классичес- 
кое распределение Пуассона. 

о 3.21 Изменить программу 3.8 для распечатывания координат пары ближайших то- 
чек. 

• 3.22 Изменить программу 3.8 для выполнения тех же вычислений в ^/-мерном про- 
странстве. 
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3.3 Связные списки 

Если главный интерес представляет последовательный перебор набора элементов, 
их можно организовать в виде связного списка — базовой структуры данных, в кото- 
рой каждый элемент содержит информацию, необходимую для получения следующего 
элемента. Основное преимущество связных списков перед массивами заключается в 
возможности эффективного изменения расположения элементов. За эту гибкость 
приходится жертвовать скоростью доступа к произвольному элементу списка, по- 
скольку единственный способ получения элемента состоит в отслеживании связей от 
начала списка. 

Определение 3.2 Связный список — это набор элементов , причем каждый из них яв- 
ляется частью узла (поде), который также содержит ссылку (Ііпк) на узел. 

Узлы определяются ссылками на узлы, поэтому связные списки иногда называют 
самоссылочыми (зеф-гефегепі) структурами. Более того, хотя узел обычно ссылается на 
другой узел, возможна ссылка на самого себя, поэтому связные списки могут пред- 
ставлять собой циклические (сусііс) структуры. Последствия этих двух фактов станут 
ясны при рассмотрении конкретных представлений и применений связных списков. 

Обычно под связным списком подразумевается реализация последовательного рас- 
положения набора элементов. Начиная с некоторого узла, мы считаем его первым 
элементом последовательности. Затем прослеживается его ссылка на другой узел, 
который дает нам второй элемент последовательности и т.д. Поскольку список мо- 
жет быть циклическим, последовательность иногда представляется бесконечной. Чаще 
всего приходится иметь дело со списками, соответствующими простому последова- 
тельному расположению элементов, принимая одно из следующих соглашений для 
ссылки последнего узла: 

■ Это пустая (пиІІ) ссылка , не указывающая на какой-либо узел. 

■ Ссылка указывает на фиктивный узел (дитту поде), который не содержит эле- 
ментов. 

■ Ссылка указывает на первый узел, что делает список циклическим. 

В каждом случае отслеживание ссылок от первого узла до последнего формирует 
последовательное расположение элементов. Массивы также задают последовательное 
расположение элементов, но оно реализуется косвенно, за счет позиции в массиве. 
(Массивы также поддерживают произвольный доступ по индексу, что невозможно для 
списков.) 

Сначала рассмотрим узлы с единственной ссылкой. В большинстве приложений 
используются одномерные списки, где все узлы, за исключением, возможно, перво- 
го и последнего, имеют ровно по одной ссылке, указывающей на них. Это простей- 
шая и наиболее интересующая нас ситуация — связные списки соответствуют после- 
довательностям элементов. В ходе обсуждения будут исследоваться более сложные 
случаи. 

Связные списки являются примитивными конструкциями в некоторых языках 
программирования, но не в С++. Однако базовые строительные блоки, о которых 
шла речь в разделе 3.1, хорошо приспособлены для реализации связных списков. Ука- 
затели для ссылок и структуры для узлов описываются следующим образом: 
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вЪгисЪ посіе { Нет Пет; посіе *пехЪ; } ; 

Ъуресіе^ посіе *1іпк; 

Эта пара выражений представляет собой не более чем код С++ для определения 
3.2. Узлы состоят из элементов (указанного здесь типа Иет) и указателей на узлы. 
Указатели на узлы также называются ссылками. Более сложные случаи будут пред- 
ставлены в главе 4. Они обеспечивают большую гибкость и более эффективную реа- 
лизацию определенных операций, но этот простой пример достаточен для понимания 
основ обработки 1 списков. Подобные соглашения для связных структур используют- 
ся на протяжении всей книги. 

Распределение памяти имеет ключевое значение для эффективного использования 
связных списков. Выше описана единственная структура (§ігисі посіе), но будет по- 
лучено множество экземпляров этой структуры, по одному для каждого узла, кото- 
рый придется использовать. Как только возникает необходимость использовать но- 
вый узел, для него следует зарезервировать память. При объявлении переменной типа 
посіе для нее резервируется память во время компиляции. Однако часто приходится 
организовывать вычисления, связанные с резервированием памяти во время выпол- 
нения, посредством вызовов системных операторов управления памятью. Например, 
в строке кода 

Ііпк х = пеѵг посіе; 

содержится оператор пе\ѵ, который резервирует достаточный для узла объем памяти 
и возвращает указатель на него в переменной х. В разделе 3.5 будет кратко показа- 
но, как система резервирует память, поскольку это хорошее применение связных 
списков! 

В языке С++ широко принято инициализировать область хранения, а не только 
выделять для нее память. В связи с этим обычно каждую описываемую структуру 
включается конструктор (сотігисіог ) . Конструктор представляет собой функцию, ко- 
торая описывается внутри структуры и имеет такое же имя. Конструкторы подроб- 
но обсуждаются в главе 4. Они предназначены для предоставления исходных значе- 
ний данным структуры. Для этого конструкторы автоматически вызываются при 
создании экземпляра структуры. Например, если описать узел списка при помощи 
следующего кода: 

вѣгисѣ посіе 

{ Нет Пет; посіе *пех*Ь; 
посіе (Пет х; посіе И) 

{ Нет = х; пехі = Ь ; }; 

} ; 

ѣуресіеіЕ посіе *1іпк; 

то оператор 

Ііпк Ь = пеѵг посіе (х, Ь) ; 

не только резервирует достаточный для узла объем памяти и возвращает указатель на 
него в переменной і, но и присваивает полю Нет узла значение х, а указателю поля 
— значение і. Конструкторы помогают избегать ошибок, связанных с инициализаци- 
ей данных. 
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Теперь, когда узел списка создан, возникает задача осуществления ссылок на зак- 
лючаемую в нем информацию — элемент и ссылку. Мы уже ознакомились с базовы- 
ми операциями, необходимыми для выполнения этой задачи: достаточно снять кос- 
венность указателя, а затем использовать имена членов структуры. Ссылка х на 
элемент узла (тип Ііеш) имеет вид (*х).ііет, а на ссылку (тип Нпк) — (*х).1іпк. Эти 
операции так часто используются, что в языке С++ для них существуют сокращенные 
эквиваленты: х->ііеш и х->1іпк. Кроме того, часто возникает необходимость в выра- 
жении: "узел, указываемый ссылкой х”, поэтому упростим его: "узел х". Ссылка слу- 
жит именем узла. 

Соответствие между ссылками и указателями С++ имеет большое значение, но 
следует учитывать, что ссылки являются абстракцией, а указатели — конкретным 
представлением. Можно разрабатывать алгоритмы, где используются узлы и ссылки, 
а также выбрать одну из многочисленных реализаций этой идеи. Например, ссылки 
можно представлять с индексами, что будет показано в конце раздела. 

Рисунки 3.3 и 3.4 иллюстрируют две основные операции, выполняемые со связны- 
ми списками. Можно удалить любой элемент связного списка, уменьшив его длину 
на 1; а также вставить элемент в любую позицию 
списка путем увеличения длины на 1. В этих ри- 
сунках для простоты предполагается, что списки 
циклические и никогда не становятся пустыми. В 
разделе 3.4 рассматриваются пиіі-ссылки, фиктив- 
ные узлы и пустые списки. Как показано на рисун- 
ках, для вставки или удаления необходимо лишь два 
оператора С++. Для удаления узла, следующего пос- 
ле узла х, используются такие операторы: 

Ь = х->пех-Ь; х^пехѣ = ѣ->пехѣ; 

или проще: 

х->пех”Ь = х->пех”Ь; х->пехЬ = ѣ; 



Для вставки в список узла і в позицию, следу- 
ющую за узлом х используется такие операторы: 

Ь->пвхЬ = х-^пехѣ; х-^ехѣ = ѣ; 

Простота вставки и удаления оправдывает су- 
ществование связных списков. Соответствующие 
операции неестественны и неудобны для масси- 
вов, поскольку требуют перемещения всего со- 
держимого массива, которое следует после затра- 
гиваемого элемента. 

Связные списки плохо приспособлены для по- 
иска к-того элемента (по индексу) — операции, 
которая характеризует эффективность доступа к 
данным массивов. В массиве для доступа к &-тому 
элементу используется простая запись а[к], а в 
списке для этого необходимо отследить к ссылок. 


РИСУНОК 3.3 УДАЛЕНИЕ В СВЯЗНОМ 
СПИСКЕ 

Для удаления из связного списка узла, 
следующего за узлом х , значение і 
устанавливается таким образом, 
чтобы указателъ ссылался на 
удаляемый узел, а затем изменяется 
указателъ х: і- >пехТ. Указателъ і 
может использоваться для ссылки на 
удаляемый узел. Хотя его ссылка по- 
прежнему указывает на список, 
обычно подобная ссылка не 
используется после удаления узла из 
списка, за исключением, возможно, 
информирования системы через 
оператор йеіеіе о том, что 
задействованная память может быть 
вновь востребована. 
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Другая операция, неестественная для списков с 
единичными ссылками, — "поиск элемента, пред- 
шествующего данному". 

После удаления узла из связного списка по- 
средством операции х->пех* = х->пех*->пехі, 
повторное обращение к нему окажется невоз- 
можным. Для небольших программ, вроде рас- 
смотренных вначале примеров, это не имеет 
большого значения, но хорошей практикой про- 
граммирования обычно считается применение 
оператора Леіеіе. Он служит противоположностью 
оператора пе^ѵ для любого узла, который более не 
придется использовать. В частности, последова- 
тельность операторов 




Ь = х->пех1;; х->пехЪ = ѣ->пехі:; сіеіеіе Ь; 

не только удаляет і из списка, но также инфор- 



л 




мирует систему, что задействованная память мо- 
жет использоваться для других целей. Оператору 
Леіеіе особое внимание уделяется при наличии 
больших списков либо большого их количества, 
но до раздела 3.5 будем его игнорировать, чтобы 
сосредоточиться на оценке преимуществ связных 
структур. 

В последующих главах будет приводиться много 
примеров использования этих и других базовых 
операций со связными списками. Поскольку в по- 
добных операциях задействовано небольшое ко- 
личество операторов, часто используется прямое 
управление списками вместо описания функций 
вставки, удаления и т. п. В качестве примера рас- 
смотрим следующую программу решения задачи 

Иосифа (Флавия), которая служит интересным контрастом решету Эратосфена. 



РИСУНОК 3.4 ВСТАВКА В СВЯЗНОМ 
СПИСКЕ 

Для вставки узла і в позицию связного 
списка , следующую за узлом х 
( верхняя диаграмма ), для I- >пехІ 
устанавливается значение х - >пехі 
(средняя диаграмма ), затем для 
х->пехІ устанавливается значение 1 
(нижняя диаграмма). 


Программа 3.9 Пример циклического списка (задача Иосифа) 


Для представления людей, расставленных в круг, построим циклический связный 
список, где каждый элемент (человек) содержит ссылку на соседний элемент против 
хода часовой стрелки. Целое число і представляет і-того человека в круге. После 
создания циклического списка из одного узла вставляются узлы от 2 до N. В результате 
образуется окружность с узлами от 1 до N. При этом переменная х указывает на N. 
Затем пропускаем М-1 узлов, начиная с 1-го, и устанавливаем значение ссылки 
(М-І)-го узла таким образом, чтобы пропустить М-ый узел. Продолжаем эту операцию, 
пока не останется один узел. 


#іпс1и<іе <іоз ѣгеат . Ь> 
#іпс1и<іе ^ѢсіііЬ. Ь> 
зѣгисѣ посіе 

{ іпѣ ііет; посіе* пехѣ; 
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подеііпѣ х, поде* ѣ) 

{ Нет = х; пехѣ = Ъ; } 

> ; 

1уреде€ поде *1іпк ; 

іпѣ таіп(іп , Ь агдс, сЬег *агдѵ[]) 

{ іпѣ і, N * аЪоі (агдѵ[1] ) , М « аіоі (агдѵ[2] ) ; 

Ііпк Ь = пеѵ поде ( 1 , 0); Ъ->пехЪ я Ь; 

Ііпк х * Ь; 

іог (і я 2; і <= Ы; і++) 
х * (х->пех1: = пек поде(і, Ь ) ) ; 

кЫІе (х != х->пехЪ) 

{ 

^ог (і я і; і < м; і++) х я х->пех1; 
х->пех1 = х->пехі->пехі; 

} 

соиі « х->іЪет « епді; 

} 

Предположим, N человек решило выбрать главаря. Для 
этого они встали в круг и стали удалять каждого М-го че- 
ловека в определенном направлении отсчета, смыкая ряды 
после каждого удаления. Задача состоит в определении, кто 
останется последним (потенциальный лидер с математичес- 
кими способностями заранее определит выигрышную пози- 
цию в круге). 

Номер выбираемого главаря является функцией от Л^и 
М, называемой функцией Иосифа. В более общем случае тре- 
буется выяснить порядок удаления людей. В примере, пока- 
занном на рис. 3.5, если А г =9иМ=5, люди удаляются в 
порядке 5 1 74369 2, а 8-ой номер становится избранным 
главарем. Программа 3.9 считывает значения N и Л/, а за- 
тем распечатывает эту последовательность. 

Для прямой имитации процесса выбора в программе 3.9 
используется циклический связный список. Сначала созда- 
ется список элементов от 1 до N. Для этого создается цик- 
лический список с единственным узлом для участника 1, 
затем вставляются узлы для участников от 2 до N с помо- 
щью операции, иллюстрируемой на рис. 3.4. Затем в спис- 
ке отсчитывается М— 1 элемент и удаляется следующий при 
помощи операции, проиллюстрированной на рис. 3.3. Этот 
процесс продолжается до тех пор, пока не останется толь- 
ко один узел (который будет указывать на самого себя). 

Решето Эратосфена и задача Иосифа хорошо иллюстри- 
руют различие между использованием массивов и связных 
списков для представления последовательно расположен- 
ных наборов объектов. Использование связного списка вме- 
сто массива для построения решета Эратосфена скажется на 
производительности, поскольку эффективность алгоритма 



РИСУНОК 3.5 ПРИМЕР 
ЗАДАЧИ ИОСИФА 

Эта диаграмма 
показывает результат 
выбора по принципу 
Иосифа , когда группа 
людей становится в круг , 
затем по кругу 
отсчитывается каждый 
пятый человек и 
удаляется из круга , пока 
не останется один . 




Глава 3 . Элементарные структуры данных 


99 


зависит от возможности быстрого доступа к 
произвольному элементу массива. Исполь- 
зование массива вместо связного списка для 
решения задачи Иосифа снизит быстродей- 
ствие, поскольку здесь эффективность алго- 
ритма зависит от возможности быстрого уда- 
ления элементов. При выборе структуры 
данных следует учитывать ее влияние на 
эффективность алгоритма обработки дан- 
ных. Это взаимодействие структур данных и 
алгоритмов занимает центральное место в 
процессе разработки программ и является 
постоянной темой данной книги. 

В языке С++ указатели служат прямой и 
удобной реализацией абстрактной концеп- 
ции связных списков, но важность абстрак- 
ции не зависит от конкретной реализации. 
Например, рис. 3.6 демонстрирует использо- 
вание массивов целых чисел с целью реали- 
зации связного списка для задачи Иосифа. 
Таким образом, можно реализовать связ- 
ный список с помощью индексов массива 
вместо указателей. Связные списки приме- 
нялись задолго до появления конструкций 
указателей в языках высокого уровня, таких 
как С++. Даже в современных системах ре- 
ализации на основе массивов иногда оказы- 
ваются удобными. 

Упражнения 

> 3.23 Написать функцию, которая возвра- 
щает количество узлов циклического 
списка для данного указателя одного из 
узлов списка. 

3.24 Написать фрагмент кода, который 
определяет количество узлов в цикличес- 
ком списке, находящихся между узлами, 
на которые ссылаются два данных указа- 
теля х и і. 


012345678 

ІЪет 
пехЪ 


5 123456789 



1 

2 

3 

5 

5 

6 

7 

8 

0 

1 

Ѣ 

2 

3 

4 

5 

6 

7 

8 

9 


и 

2 

3 

5 

5 

6 

7 

8 

1 

7 

і 

2 

3 

4 

5 

6 

7 

8 

9 


і 

2 

3 

5 

5 

7 

7 

8 

1 

4 

л 

2 

3 

4 

5 

6 

7 

8 

9 


Іі 

2 

5 

5 

5 

7 

7 

8 

1 

3 

1 

2 

3 

4 

5 

6 

7 

8 

9 


1 

5 

5 

5 

5 

7 

7 

8 

1 

6 

1 

2 

3 

4 

Б 

6 

7 

8 

9 


1 

7 

5 

5 

5 

7 

7 

8 

1 

9 

д 

2 

з 

4 

5 

6 

7 

8 

9 


1 

7 

5 

5 

5 

7 

7 

1 

1 

2 

1 

2 

3 

ІІ : 

5 

6 

7 

8 

9 


1 

7 

5 

5 

5 

7 

7 

7 

1 


РИСУНОК 3.6 ПРЕДСТАВЛЕНИЕ СВЯЗНОГО 
СПИСКА В ВИДЕ МАССИВА 

Эта последовательность отражает связный 
список для задачи Иосифа (см. рис. 3.5), 
реализованный с помощью индексов массива 
вместо указателей. Индекс элемента, 
следующего в списке за элементом с 
индексом 0, — пех1[0], и т.д. Сначала (три 
верхних строки) элемент для участника / 
имеет индекс і-1, и формируется 
циклический список путем присвоения 
значений і+1 членам пех1[і] для і от 0 до 8, 
а элементу пехі[8] присваивается значение 
0. Для имитации процесса выбора Иосифа 
изменяются ссылки (записи пехТ массива), но 
элементы не перемещаются. Каждая пара 
строк показывает результат перемещения 
по списку с четырехкратной установкой 
значений х = пехі[х] и последующим 
удалением пятого элемента (отображаемого 
в крайнем левом столбце) путем присвоения 
значения пехі[пехі[х]] указателю пехі[х]. 



3.25 Написать фрагмент кода, который 

по указателям х и і двух непересекающихся связных списков вставляет список, 
указываемый і , в список, указываемый х, в позицию, которая следует после узла 


х. 
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• 3.26 Для данных указателей х и X узлов циклического списка написать фрагмент 
кода, который перемещает узел, следующий после і 9 в позицию списка, которая 
следует после узла х. 

3.27 При построении списка программа 3.9 устанавливает двойное количество зна- 
чений ссылок по сравнению с требуемым, поскольку поддерживает циклический 
список после вставки каждого узла. Изменить программу таким образом, чтобы 
циклический список создавался без выполнения этих лишних операций. 

3.28 Определить время выполнения программы 3.9 как функцию от А/ и N. 

3.29 Использовать программу 3.9 с целью определения значения функции Иоси- 
фа для М = 2, 3, 5, 10 и ЛГ = 10 3 , ІО 4 , 10 5 и ІО 6 . 

3.30 Использовать программу 3.9 с целью построения графика зависимости фун- 
кции Иосифа от ^для М = 10 и N от 2 до 1000. 

о 3.31 Воспроизвести таблицу на рис. 3.6, когда элемент і занимает в массиве исход- 
ную позицию N-1. 

3.32 Разработать версию программы 3.9, в которой для реализации связного списка 
используется массив индексов (см. рис. 3.6). 

3.4 Обработка простых списков 

Вычисления со связными списками заметно отличаются от вычислений с массива- 
ми и структурами. При использовании массивов и структур элемент сохраняется в 
памяти. После этого на него можно ссылаться по имени (или индексу), что во мно- 
гом подобно хранению информации в картотеке либо адресной книге. При исполь- 
зовании связных списков метод хранения информации усложняет доступ к ней, од- 
нако упрощает перераспределение. Работа с данными, организованными в виде 
связных списков, называется обработкой списков. 

При использовании массивов возможны ошибки программы, связанные с попыт- 
кой доступа к данным вне допустимого диапазона. Для связных списков наиболее 
часто встречается подобная ошибка — ссылка на неопределенный указатель. Другая 
распространенная ошибка — использование указателя, который изменен неизвест- 
ным образом. Одна из причин возникновения упомянутой проблемы состоит в воз- 
можном присутствии нескольких указателей на один и тот же узел, что программист 
может не осознавать. В программе 3.9 несколько подобных проблем устраняется за 
счет использования циклического списка, который никогда не бывает пустым. При 
этом каждая ссылка всегда указывает на однозначно определенный узел. Кроме того, 
каждая ссылка может интерпретироваться как ссылка на список. 

Искусство разработки корректного и эффективного кода для обрабатывающих 
списки приложений приходит с практикой и терпением. В этом разделе представле- 
ны примеры и упражнения, призванные помочь освоить создание кода обработки 
списков. На протяжении книги будет использоваться множество других примеров, 
поскольку связные структуры лежат в основе многих эффективных алгоритмов. 

Как указывалось в разделе 3.3, для первого и последнего указателей списка при- 
меняется ряд различных соглашений. Некоторые из них рассматриваются в этом раз- 
деле, хотя мы взяли за правило резервировать термин связные списки для описания 
простейших ситуаций. 
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Определение 3.3 Связный список содержит либо пиіі-ссылки, либо ссылки на узлы , ко- 
торые содержат элемент и ссылку на связный список. 

Это определение накладывает более строгие ограничения, нежели определение 3.2, 
но оно ближе к умозрительной модели, используемой при написании кода обработ- 
ки списков. Вместо исключения всех других соглашений (за счет использования толь- 
ко этого определения) и создания специальных определений, соответствующих каж- 
дому соглашению, оставляем оба подхода в силе с учетом, что тип используемого 
связного списка будет ясен из контекста. 

Одна из наиболее распространенных операций со списками — обход (ігаѵегзе). Это 
последовательное сканирование элементов списка и выполнение некоторых опера- 
ций с каждым из них. Например, если х является указателем на первый узел списка, 
последний узел имеет пиіі-указатель, а ѵізіі: — процедура, которая принимает элемент 
в качестве аргумента, то обход списка можно реализовать следующим образом: 

±от (Ііпк Ь = х; Ь != 0; ѣ = ѣ->пехѣ) ѵізіѣ ('Ь-^і’Ьет) ; 

Этот цикл (либо его эквивалентная форма иѣііе) является универсальным для про- 
грамм обработки списков, подобно циклу (ог (іпі і = 0 ; і < N 5 і++) для программ об- 
работки массивов. 

Программа 3.10 служит реализацией простой задачи обработки списка, состоящей 
в изменении на обратный порядка следования уз- 
лов. Она принимает связный список в качестве ар- 
гумента и возвращает связный список, состоящий 
из тех же узлов, но расположенных в обратном 
порядке. На рис. 3.7 показано изменение, выпол- 
няемое функцией в своем главном цикле для каж- 
дого узла. Эта диаграмма упрощает проверку каж- 
дого оператора программы на правильность 
изменения ссылок. Программисты обычно исполь- 
зуют подобные диаграммы для осмысления опера- 
ций обработки списков. 

Программа 3.10 Обращение порядка следования 
элементов списка 

Эта функция обращает порядок следования ссылок 
в списке, возвращая указатель последнего узла, 
который затем указывает на предпоследний узел и 
т.д. При этом для ссылки в первом узле исходного 
списка устанавливается значение 0 (пиіі-указатель). 

Для выполнения этой задачи необходимо сохранять 
ссылки на три последовательных узла списка. 

Ііпк геѵегзе(1іпк х) 

{ Ііпк Ь, у = х, г = 0 ; 
ѵгЬіІе (у != 0) 

{ Ь = у->пехѣ; у->пех-Ь = г; г = у; 

У = ■ь; } 

ге-Ьигп г; 

} 



РИСУНОК 3.7 ОБРАЩЕНИЕ СПИСКА 

Для обращения порядка следования 
элементов списка применяется 
указателъ г на уже обработанную 
частъ списка , и указателъ у на еще 
не затронутую частъ списка. Эта 
диаграмма демонстрирует 
изменение указателей каждого узла 
списка. Указатель узла, следующего 
после у, сохраняется в переменной I, 
ссылка у изменяется так , чтобы 
указывать на г, после чего г 
перемещается в позицию у, а у — 
в позицию і. 
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Программа 3.11 служит реализацией другой задачи обработки списков: перерасп- 
ределение узлов в порядке сортировки их элементов. Она генерирует N случайных 
целых чисел, помещает в список в порядке их появления, перераспределяет узлы в 
порядке сортировки элементов и распечатывает полученную последовательность. 
Ожидаемое время выполнения программы пропорционально №, поэтому для боль- 
ших значений N программа неэффективна, что будет показано в главе 6. Обсужде- 
ние темы сортировки также откладывается до главы 6, поскольку в главах с 6-й по 
10-ю рассматривается множество методов сортировки. Сейчас ставится цель проде- 
монстрировать пример приложения, выполняющего обработку списков. 

Списки в программе 3.11 иллюстрируют еще одно часто используемое соглашение: 
в начале каждого списка содержится фиктивный узел, называемый ведущим (Неад 
поде). Поле элемента ведущего узла игнорируется, но ссылка узла сохраняется в ка- 
честве указателя узла, содержащего первый элемент списка. В программе использу- 
ется два списка: один для сбора вводимых случайных чисел в первом цикле, а другой 
для сбора сортированного вывода во втором цикле. На рис. 3.8 показаны изменения, 
вносимые программой 3.11 в течение одной итерации главного цикла. Из списка ввода 
извлекается следующий узел, вычисляется его позиция в списке вывода, и реализуется 
ссылка на эту позицию. 


РИСУНОК 3.8 СОРТИРОВКА СВЯЗНОГО 
СПИСКА. 

Приведенная диаграмма отражает один 
шаг преобразования неупорядоченного 
связного списка (заданного указателем а) в 
упорядоченный связный список (заданный 
указателем Ь) с использованием сортировки 
вставками. Сначала берется первый узел 
неупорядоченного списка и указатель на 
него сохраняется в X (верхняя диаграмма). 
Затем выполняется поиск в Ь для 
нахождения первого узла х, для которого 
справедливо условие х- >пехХ- >іХет > X- 
>іХет (или х- >пехХ = N11 ЬЬ) и X 
вставляется в список после х (средняя 
диаграмма). Эти операции уменьшают на 
один узел размеры списка а и увеличивают 
на один узел размеры списка Ь, сохраняя 
список Ь упорядоченным (нижняя 
диаграмма). По прошествии цикла список а 
окажется пустым, а список Ь будет 
содержать все узлы в упорядоченном виде. 
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Программа 3.11 Сортировка методом вставки в список 

» 'I Г > ■ 1 * " *' * ' " "" ■ ' 1 ■*»'■■■ ■«■■■> і и ■ у р ч ■ ■■■— ' "ч г и 1 ■ ' « 1 ■■ ■ — ■■■■■ — - 1 ■■ ■■■■■■■■■ 1 ■ ■■ ■ — — 1 1 ■■ » '■■ ■ — — і ■ 

Этот код генерирует N случайных целых чисел в диапазоне от 0 до 999, строит связный 
список, в котором на каждый узел приходится по одному числу (первый цикл *ог), 
затем переставляет узлы, чтобы при обходе списка числа следовали по порядку (второй 
цикл *ог). Для выполнения сортировки используется два списка — список ввода 
(несортированный) и список вывода (сортированный). В каждой итерации цикла из 
ввода удаляется узел и вставляется в определенную позицию списка вывода. Код 
упрощен благодаря использованию ведущих узлов в каждом списке, содержащих 
ссылки на первые узлы. В объявлениях ведущих узлов применен конструктор, поэтому 
их данные инициализируются при создании. 

посіе Ьеас1а(0, 0); Ііпк а = &Ьеасіа, ѣ = а; 

±ох <іп“Ь і = 0; і < И; і++) 

е = (Ъ->пех-Ь = пѳѵ посіе (гапсі () % 1000, 0)); 

посіе Ьеа<іЬ(0, 0); Ііпк и, х, Ъ = &Ьеа<іЬ; 

^ог (‘Ь = а->пех-Ь; Ь != 0; Ь = и) 

{ 

и = 1:->пех*Ь; 

^ог (х = Ь; х->пех1: != 0; х = х->пехѣ) 

(х->пех1:->і1:ет > ‘Ь^іѣет) Ъгеак; 

Ъ->п&хЪ — х->пехЪ; х->п ехЪ = Ь; 

) 


Главная причина использования ведущего узла становится понятной, если рассмот- 
реть процесс добавления первого узла к сортированному списку. Этот узел имеет наи- 
меньший элемент в списке ввода и может находиться в любом месте списка. Суще- 
ствуют три возможности: 

■ Дублировать цикл іог, который обнаруживает наименьший элемент и создает 
список из одного узла таким же образом, как в программе 3.9. 

■ Перед каждой вставкой узла проверять, не является ли список вывода пустым. 

■ Использовать фиктивный ведущий узел, ссылка которого указывает на первый 
узел списка, как в данном примере. 

Первому варианту не хватает изящества. Он требует дополнительного кода. То же 
относится и ко второму варианту. 

Использование ведущего узла влечет дополнительные затраты памяти (на допол- 
нительный узел). Во множестве типовых приложений без него можно обойтись. На- 
пример, в программе 3.10 присутствуют список ввода (исходный) и список вывода (за- 
резервированный), но нет необходимости использовать ведущий узел, поскольку все 
вставки выполняются в начало списка вывода. Будут примеры и других приложений, 
в которых использование фиктивного узла упрощает код эффективнее, нежели при- 
менение пиіі-ссылки в хвосте списка. Не существует жестких правил принятия реше- 
ния об использовании фиктивных узлов — выбор зависит от стиля в комбинации с со- 
ображениями быстродействия. Хорошие программисты выбирают соглашение, 
которое более всего упрощает задачу. На протяжении книги встречается несколько 
подобных компромиссов. 

Ряд вариантов соглашений о связных списках приводится в табл. 3.1 для справоч- 
ных целей. Остальные рассматриваются в упражнениях. Во всех вариантах табл. 3.1 
для ссылки на список используется указатель Ьеагі и сохраняется положение, при ко- 
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тором программа управляет ссылками узлов, используя данный код для различных 
операций. Распределение памяти под узлы и ее освобождение, а также заполнение 
узлов информацией одинаково для всех соглашений. Для живучести функций, реали- 
зующих те же операции, необходим дополнительный код проверки условий ошибок. 
Цель таблицы заключается в демонстрации сходства и различия вариантов. 

Таблица 3.1 Соглашения о ведущем и завершающем узлах в связных списках 

Эта таблица представляет реализации базовых операций обработки списков, 
основанных на пяти часто используемых соглашениях. Подобный код используется в 
простых приложениях с линейной организацией процедур обработки списков. 

Список циклический, никогда не бывает пустым 

первая вставка: Ьвасі-^ехЪ = Ьеасі; 

вставка 1 после х: ѣ->пехѣ = х->пехі; х->пехь = -Ь; 

удаление после х: х->пех-ь = х->пехѣ->пехѣ; 

цикл обхода : і = Ьеасі; 

сіо { ... Ь * Ъ->пехЪ; } кЫІе (1 != Ьеасі) ; 

проверка на наличие лишь одного элемента : іі: (Ьеасі->пвхѣ = Ьеасі) 

Ведущий указатель, пиІІ-указатель завершающего узла 

инициализация: Ьеасі = 0; 

вставка І после х: (х == 0) {Ьеасі = Ь; Ьеай->пехѣ = 0; } 

еізе { С:->пех1: = х^пехѣ; х->пех*Ь = Ь; } 
удаление после х: Ь - х->пехе ; х->пѳхі: * ъ->пех-ь ; 

цикл обхода: ±от (ѣ = Ьеасі; Ь != 0; Ь « , Ь->пех‘Ь) 

проверка на пустоту: (Ьеасі = 0) 

Фиктивный ведущий узел, пиІІ-указатель завершающего узла 

инициализация: Ьеасі = пек посіе; 

Ьеасі- >пѳхѣ = 0 ; 

вставка I после х: ѣ->пех*Ь = х->пехѣ; х->пехѣ * Ь; 

удаление после х: Ь = х->пехѣ; х->пехѣ = ъ->пвхЪ; 

цикл обхода: 5ог (Ь = Ьвасі-^ехѣ; Ь != 0; Ь = Ъ->пъхЪ) 

проверка на пустоту: (Ьеасі->пехѣ = 0) 

Фиктивные ведущий и завершающий узлы 

инициализация: Ьеасі = пек посіе; 

г = пек посіе ; 

Ьеасі->пехѣ = г; г^пехѣ = г; 
вставка і после х: ѣ->пѳхѣ = х->пехѣ; х-^пехѣ = Ъ; 

удаление после х: х->пехѣ = х->пехѣ->пѳх , Ь; 

цикл обхода: ±от (*Ь = Ьеасі- ^ехѣ; Ь != г; Ь — Ъ->пехЪ) 

проверка на пустоту: (Ьеасі->пехѣ = г) 

Другая важная ситуация, в которой иногда удобно использовать ведущий узел, 
возникает, когда необходимо передать спискам указатели в качестве аргументов фун- 
кций. Эти аргументы могут изменять список таким же образом, как это выполняет- 
ся для массивов. Использование ведущего узла позволяет функции принимать или 





Глава 3. Элементарные структуры данных 


возвращать пустой список. При отсутствии ведущего узла функция нуждается в ме- 
ханизме информирования вызывающей функции в случае, когда оставляется пустой 
список. Одно из решений для С++ состоит в передаче указателя на список как ссы- 
лочного параметра. Второй механизм предусматривает прием функциями обработки 
списков указателей на списки, ввода в качестве аргументов и возврат указателей на 
списки вывода. Он уже задействован в программе 3.10. Этот принцип устраняет не- 
обходимость использования ведущих узлов. Более того, он очень удобен для рекур- 
сивной обработки списков, которая часто используется в этой книге (см. раздел 3.1). 

Программа 3.12 Интерфейс обработки списков 

В этом коде, который можно сохранить в файле интерфейса ІіаЫі, описаны типы узлов 
и ссылок, включая операции, выполняемые над ними. Для распределения памяти под 
узлы списка и ее освобождения объявляются собственные функции. Функция сопвігисі 
применена для удобства реализации. Эти описания позволяют клиентам использовать 
узлы и связанные с ними операции без зависимости от подробностей реализации. Как 
будет показано в главе 4, несколько отличный интерфейс, основанный на классах С++, 
может обеспечить независимость клиентной программы от подробностей реализации. 

Іуредеі: ±пѣ Іѣет; 

з-Ьгисѣ поде { Іѣет Нет; поде *пехѣ; } ; 
ѣуредеГ поде *1±пк; 

Ъуредеі: Ііпк Ыодѳ ; 

ѵоід сопзѣгисЪ (іпЪ) ; 

Иоде периоде (іпЪ) ; 
ѵоід деІеѣеИоде (Иоде) ; 
ѵоід іпзегѣСИоде, Иоде) ; 

Иоде гетоѵе (Иоде) ; 

Иоде пехѣ(Иоде); 

Нет Пет (Ноде) ; 


Программа 3.12 объявляет набор функций "черного ящика", которые реализуют 
базовый список операций. Это позволяет избегать повторения кода и зависимости от 
деталей реализации. Программа 3.13 реализует выбор Иосифа (см. программу 3.9), 
преобразованный в клиентскую программу, которая использует этот интерфейс. 
Идентификация важных операций, используемых в вычислениях, и описание их в 
интерфейсе обеспечивают гибкость, которая позволяет рассматривать различные кон- 
кретные реализации важных операций и проверять их эффективность. В разделе 3.5 
рассматривается реализация операций программы 3.12 (см. программу 3.14), но воз- 
можны альтернативные решения, не требующие никаких изменений программы 3.13 
(см. упражнение 3.51). Эта тема еще будет неоднократно затрагивать в данной кни- 
ге. Язык С++ включает несколько механизмов, специально предназначенных для 
упрощения разработки инкапсулированных реализаций; речь об этом пойдет в гла- 
ве 4. 

Программа 3.13 Организация списка для задачи Иосифа 

Эта программа решения задачи Иосифа служит примером клиентской программы, 
использующей примитивы обработки списков, которые объявлены в программе 3.12 и 
реализованы в программе 3.14. 
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#іпс1и<іе <іозѣгеат.Ь> 

#іпс1и<іе <зѣ<і1іЬ.Ь> 

#іпс1и<іе «ІізІ.Ь» 

іпѣ таіп(іпѣ агдс, сЬаг *агдѵ[]) 

{ іпѣ і, N = аЪоі (агдѵ[1] ) , М = аЪоі (агдѵ[2] ) ; 
Иосіе Ь, х ; 
сопзѣгисі (И) ; 

^ог (і = 2, х = пе*Л1о(іе(1); і <= К; і++) 

{ ѣ = пеѵгНосІе ( і ) ; іпзегѣ(х, 1); х = Ь; } 
«Ьііе (х != пехѣ(х)) 

{ 

^ог (і = 1; і < М; і++) х = пехѣ(х); 
сІеІеѣеІТосІе (гетоѵе (х) ) ; 

} 

сои! « ііет(х) « епсіі; 
геЪигп 0 ; 


Некоторые программисты предпочитают инкапсулировать все операции в низко- 
уровневых структурах данных, таких как связные списки, путем описания функция 
для каждой низкоуровневой операции в интерфей- 


сах, подобных показанному в программе 3.12. Дей- 
ствительно, как будет продемонстрировано в главе 
4, классы С++ упрощают это решение. Однако та- 
кой дополнительный уровень абстракции иногда 
скрывает факт использования небольшого количе- 
ства операций низкого уровня. В данной книге при 
реализации высокоуровневых интерфейсов низко- 
уровневые операции обычно описываются непос- 
редственно в связных структурах, дабы ясно выра- 
зить существенные подробности алгоритмов и 
структур данных. В главе 4 будет рассматриваться 
множество примеров. 

За счет добавления ссылок можно реализовать 
возможность обратного перемещения по связному 
списку. Например, применение двухсвязного списка 
(доиЫе Ііпкесі Іізі) позволяет поддерживать операцию 
"найти элемент, предшествующий данному”. В та- 



ком списке каждый узел содержит две ссылки: одна 
(ргеѵ) указывает на предыдущий элемент, а другая 
(пехі) — на следующий. Наличие фиктивных уз- 
лов либо цикличность двухсвязного списка позво- 
ляет обеспечить эквивалентность выражений 
х->пех*->ргеѵ и х->ргеѵ->пех* для каждого узла. 
На рис. 3.9 и 3.10 показаны основные действия со 
ссылками, необходимые для реализации операций 
гетоѵе (удалить), іпзегі а/іег (вставить после) и іпзегі 
Ье/оге (вставить перед) в двухсвязных списках. 


РИСУНОК 3.9 УДАЛЕНИЕ В 
ДВУХСВЯЗНОМ СПИСКЕ 

В двухсвязном списке указатель 
узла предоставляет достаточно 
информации для удаления узла, что 
видно из диаграммы. Для данного 1 
указателю 1- >пехі- >ргеѵ 
присваивается значение і- >ргеѵ 
(средняя диаграмма), а указателю 
I- >ргеѵ- >пехі — значение 1- >пехі 
(нижняя диаграмма). 
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Обратите внимание, что для операции удаления не 
требуется дополнительной информации об узле, 
предшествующем данному (либо следующим за 
ним) в списке, как это имеет место для односвяз- 
ных списков — эта информация содержится в са- 
мом узле. 

Действительно, главная особенность двухсвяз- 
ных списков состоит в возможности удаления узла, 
когда ссылка на него является единственной ин- 
формацией об узле. Типичны случаи, когда ссыл- 
ка передается при вызове функции в качестве ар- 
гумента, а также если узел имеет другие ссылки и 
сам является частью другой структуры данных. 
Предоставление этой дополнительной возможно- 
сти влечет удвоение пространства, отводимого под 
ссылки в каждом узле, а также количества опера- 
ций со ссылками на каждую базовую операцию. 
Поэтому двухсвязные списки обычно не использу- 
ются, если этого не требуют условия. Рассмотре- 
ние подробных реализаций отложим до обзора не- 
скольких особых случаев, где в этом возникнет 
необходимость — например, в разделе 9.5 

Связные списки используются в материале 
книги, во-первых, для основных АБТ-реализаций 
(см. главу 4), во-вторых, в качестве компонентов 
более сложных структур данных. Для многих про- 
граммистов связные списки являются первым зна- 
комством с абстрактными структурами данных, 
которыми разработчик может непосредственно 
управлять. Они образуют важное средство разра- 
ботки высокоуровневых абстрактных структур 
данных, необходимых для решения множества за- 
дач, в чем будет возможность убедиться. 

Упражнения 

> 3,33 Создать функцию, которая перемещает 
наибольший элемент данного списка так, что- 
бы он стал последним узлом. 

3.34 Создать функцию, которая перемещает 
наименьший элемент данного списка так, что- 
бы он стал первым узлом. 


V. . 



РИСУНОК 3.10 ВСТАВКА В 
ДВУХСВЯЗНОМ СПИСКЕ 

Для вставки узла в двухсвязный 
список необходимо установить 
четыре указателя. Можно вставить 
новый узел после данного узла (как 
показано на диаграмме) либо перед 
ним. Для вставки узла і после узла х 
указателю и >пехі присваивается 
значение х- >пехІ, а указателю 
х- >пехТ- >ргеѵ — значение Г (средняя 
диаграмма). Затем указателю 
х- >пехі присваивается значение I, 
а указателю I - >ргеѵ — значение х 
(нижняя диаграмма). 


3.35 Создать функцию, которая перераспределяет связный список так, чтобы узлы 
в четных позициях следовали после узлов в нечетных позициях, сохраняя порядок 
сортировки четных и нечетных узлов. 
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3.36 Реализовать фрагмент кода для связного списка, меняющий местами узлы, 
которые следуют после узлов, указываемых ссылками і и и. 

о 3.37 Создать функцию, которая принимает ссылку на список в качестве аргумента 
и возвращает ссылку на копию списка (новый список, содержащий те же элемен- 
ты в том же порядке). 

3.38 Создать функцию, принимающую два аргумента — ссылку на список и фун- 
кцию, принимающую список в качестве аргумента — и удаляет все элементы дан- 
ного списка, для которых функция возвращает ненулевое значение. 

3.39 Выполнить упражнение 3.38, но создать копии узлов, которые проходят про- 
верку и возвращают ссылку на список, содержащий эти узлы, в порядке их следо- 
вания в исходном списке. 

3.40 Реализовать версию программы 3.10, в которой используется фиктивный узел. 

3.41 Реализовать версию программы 3.11, в которой не используются фиктивные 
узлы. 

3.42 Реализовать версию программы 3.9, в которой используется фиктивный узел. 

3.43 Реализовать функцию, которая меняет местами два данных узла в двухсвяз- 
ном списке. 

о 3.44 Создать запись табл. 3.1 для списка, который никогда не бывает пустым. На 
этот список ссылается указатель первого узла, а последний узел содержит указа- 
тель на самого себя. 

3.45 Создать запись табл. 3.1 для циклического списка, имеющего фиктивный узел, 
который служит ведущим и завершающим узлом. 

3.5 Распределение памяти под списки 

Преимущество связных списков перед массивами состоит в том, что связные спис- 
ки эффективно изменяют размеры на протяжении времени жизни. В частности, нео- 
бязательно заранее знать максимальный размер списка. Одно из важных практичес- 
ких следствий этого свойства состоит в возможности иметь несколько структур 
данных, обладающих общим пространством, не уделяя особого внимания их относи- 
тельному размеру в любой момент времени. 

Интерес представляет реализация оператора пе^ѵ. Например, при удалении узла из 
списка задача сводится к перераспределению ссылок таким образом, чтобы узел бо- 
лее не был привязан к списку. А как поступает система с пространством, которое этот 
узел занимал? Как система утилизирует пространство, чтобы всегда иметь возмож- 
ность выделять его под новый узел в операторе пе^ѵ? За этими вопросами стоят ме- 
ханизмы, которые служат еще одним примером эффективности элементарной обра- 
ботки списков. 

Оператор сіеіеіе дополняет оператор пе^ѵ. Когда блок выделенной памяти более не 
используется, вызывается оператор сіеіеіе для информирования системы о том, что 
блок доступен для дальнейшего использования. Динамическое распределение памяти 
(сіупатіс тетогу аііосатіоп) — это процесс управления памятью и ответных действий на 
вызов операторов пе^ѵ и йеіеіе из клиентских программ. При вызове оператора поѵ 
непосредственно из приложений, таких как программы 3.9 или 3.11, запрашиваются 
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блоки памяти одинакового размера. Это типичный случай. Альтернативный метод 
отслеживания памяти, доступной для распределения, напрашивается сам: достаточно 
использовать связный список! Все узлы, которые не входят ни в один используемый 
список, можно совместно содержать в единственном связном списке. Этот список 
называется свободным (/гее Іізі). Когда необходимо выделить пространство под узел, 
оно извлекается за счет удаления из свободного списка. При удалении узла из како- 
го-либо списка, он вставляется в свободный список. 

Программа 3.14 является реализацией интерфейса, описанного в программе 3.12, 
включая функции распределения памяти. При совместной компиляции с программой 
3.13 она дает такой же результат, что и прямая реализация, с которой мы начали в 
программе 3.9. Содержание свободного списка для узлов фиксированного размера — 
тривиальная задача при наличии базовых операций вставки и удаления узлов из списка. 

Программа 3.14 Реализация интерфейса обработки списков 

Эта программа реализует функции, объявленные в программе 3.12, а также 
иллюстрирует стандартное распределение памяти под узлы фиксированного размера. 
Создается свободный список, который инициализируется в соответствии с максимальным 
количеством узлов, используемых программой. Все узлы взаимосвязаны. Когда клиентская 
программа выделят память для узла, он удаляется из свободного списка. Когда 
клиентская программа удаляет узел, он привязывается к свободному списку. 

По соглашению клиентские программы не ссылаются на узлы списков за исключением 
случаев объявления переменных типа Ыосіе и использования их в качестве аргументов 
функций, описанных в интерфейсе. При этом возвращаемые клиентским программам 
узлы имеют ссылки на самих себя. Эти соглашения служат средством защиты от 
ссылок на неопределенные указатели и, в какой-то мере, гарантируют, что клиент 
использует интерфейс должным образом. В языке С++ эти соглашения реализуются 
путем использования классов совместно с конструкторами (см. главу 4). 

#±пс1исІе <зѣсі1іЬ . Ь> 

#іпс1исіе "Іівѣ.Н" 

Ііпк ^гѳеІіз'Ь; 
ѵоісі сопзѣгисѣ (іпѣ Л) 

{ 

іігѳеІів'Ь = пѳ*г посіе[Л+1] ; 

^ог (іпЪ і = 0; і < Л; і++) 

^гее1ізѣ[і] .пѳх'Ь - &€гее1ізѣ[і+1] ; 

Ггее1ізЪ[Л] . пахѣ = 0; 

1 

Ііпк пеѵЛосіе ( іпѣ і ) 

{ Ііпк х = гетоѵе (^гееіізѣ) ; 
х->іѣет = і; х->пехѣ = х; 
гв'Ьигп х; 

} 

ѵоісі сіеІеѣѳЛосіе (Ііпк х) 

{ іпзегѣ (Ггѳѳііз-Ь, х) ; } 

ѵоісі іпвег1:(1іпк х , Ііпк Ь) 

{ ѣ->пехі: = х-^пехЪ; х->пехЪ = Ъ; } 

Ііпк гетоѵе(1іпк х) 

{ Ііпк Ь = х->пехѣ; х->пехЪ = ’Ь->пѳх , Ь; гвіигп Ъ; } 

Ііпк пехѣСІіпк х) 

{ геѣигп х-^пехЪ; } 

Іѣет іѣет(1іпк х) 

{ геЪигп х->і*Ьвт; } 
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Рисунок 3.11 иллюстрирует разрастание свобод- 
ного списка по мере удаления узлов в программе 
3.13. Для простоты подразумевается реализация 
связного списка (без ведущего узла), основанная на 
индексах массива. 

Реализация обобщенного распределителя памя- 
ти в среде С++ намного сложнее, чем подразумева- 
ют рассмотренные простые примеры, а реализация 
оператора пеѵѵ в стандартной библиотеке явно не 
настолько проста, как показано в программе 3.14. 
Одно из основных различий состоит в том, что фун- 
кции паѵ приходится обрабатывать запросы распре- 
деления области хранения для узлов различного 
размера — от крохотных до огромных. Для этой 
цели разработано несколько хитроумных алгорит- 
мов. Другой подход, используемый некоторыми со- 
временными системами, состоит в освобождении 
пользователя от необходимости явно удалять узлы 
за счет алгоритмов сборки мусора (%агЪа%е-со11есйоп ) . 
Эти алгоритмы автоматически удаляют все узлы, на 
которые не указывает ни одна ссылка. В этой свя- 
зи т&кяде разработано несколько нетривиальных 
алгормодов управления областью хранения. Они не 
будут рассматриваться подробно, поскольку их ха- 
рактеристики быстродействия зависят от свойств 
определенных компьютеров. 

Программы, использующие специфические све- 
дения о проблеме, часто эффективнее программ 
общего назначения, решающих те же задачи. Рас- 
пределение памяти — не исключение из этого пра- 
вила. Алгоритм обработки запросов областей хране- 
ния различного размера не может "знать”, что 
запросы всегда будут относиться к блокам фиксиро- 
ванного размера, и поэтому не может использовать 
этот факт. Парадоксально, но вторая причина отка- 
за от функций библиотек общего назначения зак- 
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РИСУНОК 3.11 ПРЕДСТАВЛЕНИЕ 
СВЯЗНОГО СПИСКА И 
СВОБОДНОГО СПИСКА В ВИДЕ 
МАССИВОВ 

Эта версия рис. 3. 6 демонстрирует 
результат поддержки свободного 
списка с узлами , удаленными из 
циклического списка. Слева 
отображен индекс первого узла 
свободного списка. В конце процесса 
свободный список представляет 
собой связный список , содержащий 
все удаленные элементы. 
Прослеживая ссылки , начиная с 7, 
можно наблюдать следующий ряд 
элементов: 2 9 634 715. Они 
следуют в порядке , обратном по 
отношению тому , в котором 
элементы удалялись. 



лючается в том, что это делает программу более пе- 
реносимой — можно застраховаться от неожиданных изменений быстродействия при 
смене библиотеки либо перемещения в другую систему. Многие программисты счи- 


тают, что использование простого распределителя памяти, вроде продемонстрирован- 
ного в программе 3.14, — удачный способ разработки эффективных и переносимых 
программ, использующих связные списки. Этот подход задействован в ряде алгорит- 
мов, которые будут исследоваться в данной книге. В них применяются подобные 
виды запросов к системе управления памятью. В остальной части книги для распре- 
деления памяти применяются стандартные функции С++ пеіѵ и йеіеіе. 
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Упражнения 

о 3.46 Написать программу, которая удаляет все узлы связного списка (вызывает 
операцию ёеіеіе с указателем). 

3.47 Написать программу, которая удаляет узлы связного списка, находящиеся в 
позициях с номерами, кратными 5. 

о 3.48 Написать программу, которая удаляет узлы в четных позициях связного спис- 
ка. 


3.49 Реализовать интерфейс программы 3.12 с помощью прямого использования 
операций пе^ѵ и ёеіеіе в функциях пе>ѵІЧо<1е и ёеІеіеІЧосІе соответственно. 


3.50 Эмпирически сравнить времена выполнения функций распределения памя- 
ти из программы 3.14 с операторами пе>ѵ и ёеіеіе (см. упражнение 3.49) для про- 
граммы 3.13 при М — 2 и N — ІО 3 , ІО 4 , 10 5 и 10 6 . 

3.51 Реализовать интерфейс программы 3.12, используя индексы массива (при от- 
сутствии ведущего узла) вместо указателей таким образом, чтобы рис. 3.11 иллю- 
стрировал операции программы. 


о 3.52 Предположим, что имеется набор узлов без пиіі 
зывает на самого себя либо на другой узел набора), 
ссылкам, начиная с любого узла, получится цикл. 


указателей (каждый узел ука- 
Д о казать, что если следовать 


• 3.53 При соблюдении условий упражнения 3.52 записать фрагмент кода, отыски- 
вающий по данному указателю узла количество различных узлов, которые будут 
достигнуты, если следовать ссылкам от данного узла. Модификация любых узлов 
не допускается. Не использовать более некоторого постоянного объема дополни- 
тельного пространства памяти. 


•• 3.54 При соблюдении условий упражнения 3.53 записать функцию, которая опре- 
деляет, окажутся ли в одном цикле две данных ссылки, если их отслеживать. 


3.6 Строки 

В языке С термин "строка" (зігіщ) обозначает массив символов переменной дли- 
ны, определяемый начальной точкой и символом завершения строки. Язык С++ на- 
следует эту структуру данных из С. Кроме того, строки в качестве высокоуровневой 
абстракции включены в стандартную библиотеку. В этом разделе приводится несколь- 
ко примеров строк в стиле С. Ценность строк в качестве низкоуровневых структур 
данных обусловлена двумя главными причинами. Во-первых, многие вычислительные 
приложения предусматривают обработку текстовых данных, которые могут представ- 
ляться непосредственно строками. Во-вторых, многие вычислительные системы пре- 
доставляют прямой и эффективный доступ к байтам памяти, которые в точности со- 
ответствуют символам строк. Таким образом, в подавляющем большинстве случаев 
абстракция строк связывает потребности приложения с возможностями компьютера. 

Абстрактное понятие последовательности символов, завершаемых символом конца 
строки, может быть реализовано множеством способов. Например, можно использо- 
вать связный список, но в этом случае для каждого символа потребуется содержать по 
одному указателю. Язык С++ наследует из С эффективную реализацию на основе 
массивов, которая рассматривается в этом разделе, а также предоставляет более обоб- 


Часть 2 . Структуры данных 


щенную реализацию из стандартной библиотеки. Остальные реализации исследуют- 
ся в главе 4. 

Различие между строкой и массивом символов связано с понятием длины. В обо- 
их случаях представляется непрерывная область памяти, но длина массива устанавлива- 
ется в момент его создания, а длина строки может изменяться в процессе выполнения 
программы. Это различие влечет интересные последствия, которые мы вкратце обсудим. 

Для строки необходимо зарезервировать память либо во время компиляции, путем 
объявления массива символов с фиксированной длиной, либо во время выполнения, 
через вызов функции пе\ѵ[]. После выделения памяти массиву его можно заполнять 
символами с начала и до символа завершения строки. Без символа завершения строка 
представляет собой обыкновенный массив символов. Символ завершения строки по- 
зволяет применять более высокий уровень абстракции, позволяющий рассматривать 
только часть массива (от начала до символа завершения) как содержащую значимую 
информацию. Символ завершения имеет значение 0. Его также обозначают так: *\0\ 
Например, чтобы найти длину строки, можно подсчитать количество символов от 
начала и до символа завершения. В табл. 3.2 перечислены простые операции, кото- 
рые часто выполняются со строками. Все они предусматривают сканирование строк 
с начала и до конца. Многие из этих функций содержатся в библиотеках, объявлен- 
ных в файле <5(гіп§.Ь>. Однако программисты для простых приложений часто исполь- 
зуют слегка измененные версии в линейном коде. Для живучести функций, реализу- 
ющих те же операции, необходим дополнительный код проверки условий ошибок. 
Этот код представлен здесь не только с целью демонстрации его простоты, но и для 
наглядной демонстрации характеристик производительности. 

Таблица 3.2 Элементарные операции со строками 

В этой таблице представлены основные операции обработки строк, использующие два 
различных примитива языка С++. Применение указателей делает код более 
компактным, а использование индексированного массива служит более естественным 
методом выражения алгоритмов и делает код более простым для понимания. 
Операция объединения для версии с использованием указателей совпадает с 
операцией для версии, в которой применяется индексированный массив. Операция 
предварительного сравнения для версии с указателями получается таким же образом, 
как и для версии с индексированным массивом, поэтому она опущена. Время 
выполнения всех реализаций пропорционально длине строки. 

Версии с индексированным массивом 

Вычисление длины строки (зѣгіеп(а)) 

^ог (і = 0; а[і] != 0; і++) ; ге^Ьигп і ; 

Копирование ( з -Ьг сру ( а , Ъ ) ) 

^ог (і = 0; (а [і] = Ъ[і]) != 0; і++ ; 

Сравнение ( з Ьг стр ( а , ъ ) ) 

^ог (і = 0; а [і] == Ь[і] != 0; і++) ; 

(а[і] == 0) ге-Ьигп 0; 

ге-Ьигп а[і] - Ъ[і] ; 

Сравнение ( префикс) ( з Ьг пстр ( а , ъ , п ) ) 

Гог (і = 0; і < п && а[і] != 0; і++) 

(а[і] != Ъ[і]) геЪшгп а[і] — Ь[і] ; 

геѣигп 0 ; 
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Присоединение (зігсае(а, Ъ)) 

зЪгсру (а+зѣгіѳп (а) , Ь) 

Эквивалентные версии с указателями 

Вычисление длины строки (з*ьгіеп(а)) 

Ь = а; иЫ 1е (*Ъ++) ; геіигп Ъ-а-1; 

Копирование (зігсру (а, Ъ)) 

кЫ 1е (*а++ = *Ъ++) ; 

Сравнение (5ігстр(а, ъ>) 

кЫ 1в (*а++ = *Ъ++) 

(*(а-1) = 0) геіигп 0; 

гвіигп *(а-1) - * (Ь-1) ; 


Одной из наиболее важных является операция сравнения (сотраге). Она указыва- 
ет, какая из двух строк должна первой значиться в словаре (бісііопагу). Для просто- 
ты изложения предполагается, что словарь идеализирован (поскольку реальные пра- 
вила для строк, содержащих знаки пунктуации, буквы нижнего и верхнего регистра, 
числа и пр. довольно сложны), а строки сравниваются посимвольно от начала и до 
конца. Такой порядок называется лексикографическим. Кроме того, функция срав- 
нения используется для определения эквивалентности строк. По соглашению функ- 
ция сравнения возвращает отрицательное число, если строка первого аргумента на- 
ходится в словаре перед второй строкой, положительное число в противном случае и 
ноль, когда строки идентичны. Важно отметить, что выполнение проверки равенства 
не то же, что определение, равны ли два указателя строк — если два указателя строк 
равны, то же относится к указываемым строкам (это одна и та же строка), но воз- 
можны различные указатели строк, которые ссылаются на равные строки (идентич- 
ные последовательности символов). Хранение информации в строках с последующей 
обработкой либо доступом к ней путем сравнения строк, применяется во множестве 
приложений. Поэтому операция сравнения имеет особое значение. Характерный при- 
мер содержится в разделе 3.7, а также во многих других местах книги. 

Программа 3.15 является реализацией простой задачи обработки строк. Она рас- 
печатывает позиции, где короткая образцовая строка содержится внутри длинной 
строки текста. Для этой задачи разработано несколько сложных алгоритмов, но дан- 
ный простой алгоритм иллюстрирует несколько соглашений, используемых при об- 
работке строк в языке С++. 

Обработка строк служит убедительным примером необходимости сведений о бы- 
стродействии библиотечных функций. Дело в том, что время выполнения библиотеч- 
ных функций может превышать интуитивно ожидаемый результат. Например, опре- 
деление длины строки занимает время, пропорциональное ее длине. Игнорирование 
этого факта может привести к серьезным проблемам, связанным с быстродействием. 
Например, после краткого обзора библиотеки можно реализовать соответствие образ- 
цу из программы 3.15 следующим образом: 

^ог (і = 0; і < зегІепСа) ; і++) 

(зЪгпстр (&а[і] , р, зігіеп(р)) == 

сои! « і « " 

* 


И . 
9 


0 ) 
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К сожалению, время выполнения этого фрагмента кода пропорционально, как 
минимум, квадрату длины а независимо от кода тела цикла, поскольку для опреде- 
ления длины строки а каждый раз выполняется ее полный перебор. Эти затраты вре- 
мени велики и даже неприемлемы: выполнение программы для проверки наличия 
определенного слова в данной книге (содержащей более миллиона символов) потре- 
бует триллионов операций. Подобные проблемы трудно обнаружить, поскольку про- 
грамма может хорошо работать с небольшими строками на этапе отладки, но силь- 
но замедляться, если не полностью затормаживаться при решении реальных задач. 
Более того, этих проблем можно избегать только будучи осведомленным о них! 

Программа 3.15 Поиск строки 

Эта программа обнаруживает все вхождения введенного из командной строки слова 
в строке текста (предположительно намного большей длины). Строка текста 
объявляется в виде массива символов фиксированной длины (можно также 
использовать оператор пеж[], как в программе 3.6). Чтение строки выполняется из 
стандартного ввода с помощью функции сіп.деі(). Память для слова (аргумента 
командной строки) выделяется системой перед вызовом программы, а указатель 
строки содержится в элементе агдѵ[1]. Для каждой начальной позиции і в строке а 
предпринимается попытка сравнить подстроку, которая начинается с этой позиции, со 
словом р. Эквивалентность проверяется символ за символом. Как только достигается 
конец слова р, печатается начальная позиция і вхождения этого слова в текст. 

Ііпсіисіе <іоз1:геат.1і> 

ііпсіисіе <з1:гіпд.1і> 

зѣаѣіс сопзѣ іпѣ N = 10000; 

іпЪ т&іп(1хѵЬ агдс, сЪаг *агдѵ[]) 

{ іп'Ь і; сЪаг Ь; 
сЪаг а [И], *р = агдѵ[1] ; 

€ог (і * 0; і < N-1; а[і] = Ь, і++) 

ІГ ( Ісіп.деЪ (ѣ) ) Ьгеак; 
а [і] = 0; 

Ног (і =■ 0; а[і] != 0; і++) 

{ іпЪ э ; 

^ог (} = 0; р [ Л !* 0; }++) 

(а[і+Л != р [ Л ) Ьгѳак ; 
іі: (р[Л ев 0) соиѣ « і « " 

} 

сои'Ь « впсіі ; 

} 


Этот вид ошибок называется потерей быстродействия (рефгтапсе Ьи&), поскольку 
код может быть корректным, но его выполнение окажется не настоль эффективным, 
как ожидалось. Прежде чем приступить к изучению эффективных алгоритмов, необ- 
ходимо надежно устранить потери быстродействия подобного типа. Стандартные биб- 
лиотеки обладают многими достоинствами, однако следует учитывать потенциальные 
недостатки их использования для реализации простых функций рассмотренного типа. 

Одна из важных концепций, к которой мы время от времени возвращаемся, гла- 
сит, что различные реализации одного и того же абстрактного понятия могут иметь 
широкие расхождения в характеристиках производительности. Например, класс $ігіп§ 
стандартной библиотеки С++ постоянно отслеживает длину строки и может возвра- 
щать это значение через равные промежутки времени, но остальные операции вы- 
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полняются медленнее. Для различных приложений могут оказаться приемлемыми 
неодинаковые реализации. 

Довольно часто библиотечные функции не могут гарантировать наилучшее быс- 
тродействие для всех приложений. Даже если производительность библиотечной фун- 
кции хорошо задокументирована (как в случае зігіеп), нет уверенности, что некото- 
рые будущие реализации не повлекут изменений, которые отрицательно повлияют на 
быстродействие программ. Это соображение имеет большое значение для разработ- 
ки алгоритмов и структур данных, потому его следует постоянно учитывать. Осталь- 
ные примеры и дальнейшие вариации рассматриваются в главе 4. 

По сути, строки являются указателями на символы. В некоторых случаях рассмот- 
ренный подход позволяет создавать компактный код для функций обработки строк. 
Например, чтобы скопировать одну строку в другую, можно написать: 

ѵгЫІв (*а++ = *Ъ++) ; 

вместо 


±ог (і = 0; а[і] != 0; і++) а[і] = Ь [і] ; 

либо третьего варианта из табл. 3.2. Оба способа ссылки на строки эквиваленты, но 
получаемый код может иметь различные характеристики производительности на раз- 
ных компьютерах. Обычно версия с массивами используется для ясности, а версия с 
указателями — с целью снижения размеров кода. Подробные исследования для поиска 
наилучшего решения оставляем для определенных фрагментов часто используемого 
кода в некоторых приложениях. 

Распределение памяти для строк сложнее, чем для связных списков, поскольку 
строки имеют различный размер. Действительно, совершенно обобщенный механизм 
резервирования пространства для строк представляет собой ни что иное, как предо- 
ставляемые системой функции пеіѵ[] и <іе1е{е[]. Как указывалось в разделе 3.6, для 
решения этой задачи разработаны различные алгоритмы. Их характеристики произ- 
водительности зависимы от системы и компьютера. Часто распределение памяти при 
работе со строками является не такой сложной проблемой, как это может показать- 
ся, поскольку используются указатели на строки, а не сами символы. Действительно, 
обычно мы не предполагаем, что все строки занимают индивидуально выделенные бло- 
ки памяти. Мы склонны предполагать, что каждая строка занимает область памяти с 
неопределенным адресом, но достаточно большую, чтобы вмещать строку и ее сим- 
вол завершения. Следует очень тщательно обеспечивать выделение памяти при вы- 
полнении операций создания либо удлинения строк. В качестве примера в разделе 3.7 
приводится программа, которая читает строки и управляет ими. 

Упражнения 

о 3.55 Написать программу, которая принимает строку в качестве аргумента и рас- 
печатывает таблицу, которая отображает встречаемые в строке символы с часто- 
той появления каждого из них. 

о 3.56 Написать программу, которая определяет, является ли данная строка палин- 
дромом (одинаково читается в прямом и обратном направлениях), если игнори- 
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ровать пробелы. Например, программа должна давать положительный ответ для 
строки "іГ і Ьасі а ЫГГ. 

3.57 Предположим, что для строк индивидуально выделена память. Создать вер- 
сии функций §ігсру и зігсаі, которые выделяют память и возвращают указатель на 
новую результирующую строку. 

3.58 Написать программу, которая принимает строку в качестве аргумента и чи- 
тает ряд слов (последовательностей символов, разделенных пробелами) из стандар- 
тного ввода, распечатывая те из них, которые входят как подстроки в строку ар- 
гумента. 

3.59 Написать программу, которая заменяет в данной строке подстроки, состоя- 
щие из нескольких пробелов, одним пробелом. 

3.60 Реализовать версию программы 3.15, в которой будут использоваться указа- 
тели. 

о 3.61 Написать эффективную программу, которая вычисляет длину самой большой 
последовательности пробелов в данной строке, анализируя как можно меньшее 
количество символов. Подсказка : с возрастанием длины последовательности про- 
белов программа должна выполняться быстрее. 

3.7 Составные структуры данных 

Массивы, связные списки и строки обеспечивают простые методы последователь- 
ной организации данных. Они создают первый уровень абстракции, который можно 
использовать для группировки объектов методами, пригодными для их эффективной 
обработки. Иерархию подобных абстракций можно использовать для построения более 
сложных структур. Возможны массивы массивов, массивы списков, массивы строк и 
т.д. В этом разделе представлены примеры подобных структур. 

Подобно тому, как одномерные массивы соответствуют векторам, двумерные мас- 
сивы, с двумя индексами, соответствуют матрицам и широко используются в матема- 
тических расчетах. Например, следующий код можно применить для перемножения 
матриц а и Ъ с помещением результата в третью матрицу с. 

^ог (і = 0; і < Ы; і++) 

^ог ( з = 0 ; з < Ы; 3++) 

с[і] [3] = 0.0; 

^ог (і = 0; і < И; і++) 
і:ог (з = 0; 3 < 3++) 

^ог (к = 0; к < к++) 

с[і] [3] += а [і] [к] *Ъ [к] [3] ; 

Математические расчеты часто естественно выражаются многомерными массива- 
ми. 

Помимо математических применений привычный способ структурирования ин- 
формации состоит в использовании таблиц чисел, организованных в виде строк и 
столбцов. В таблице оценок можно выделить по одной строке для каждого студента 
и по одному столбцу для каждого предмета. Такая таблица будет представлять двумер- 
ный массив с одним индексом для строк и вторым — для столбцов. Если студентов 
100, а предметов 10, можно объявить массив в виде §гайе8[100][10], а затем ссылаться 
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на оценку /-го студента по /-тому предмету следующим образом: §га<1е[і][|]. Для вы- 
числения средней оценки по предмету необходимо сложить элементы соответствую- 
щего столбца и разделить сумму на количество строк. Чтобы вычислить среднюю 
оценку определенного студента, нужно сложить элементы строки и разделить сумму 
на количество столбцов и т.п. Двумерные массивы широко, используются в приложе- 
ниях подобного типа. В программе часто целесообразно использовать более двух из- 
мерений. Например, в таблице оценок можно использовать третий индекс для учета 
всех таблиц на протяжении учебного года. 

Двумерные массивы — вид удобной записи, поскольку числа хранятся в памяти 
компьютера, которая, по сути, является одномерным массивом. Во многих языках 
программирования двумерные массивы хранятся в порядке старшинства строк в од- 
номерных массивах. Так в массиве а[М][ІЧ] первые N позиций будут заняты первой 
строкой (элементы от а[0][0] до а[0][ІЧ-1]), вторые N позиций — второй строкой 
(элементы от а[1][0] до а[1] [N-1]) и т.д. При организации хранения в порядке стар- 
шинства строк последняя строка кода перемножения матриц из предыдущего абзаца 
в точности эквивалентна выражению: 

с[Н*і+Л = а [И^і+к] *Ъ [И*к+ ] ] 

Обобщение той же схемы применимо для массивов с большим количеством изме- 
рений. В языке С++ многомерные массивы могут реализовываться более общим ме- 
тодом: их можно описывать в виде составных структур данных (массивов массивов). 
Это обеспечивает гибкость, например, содержания массивов массивов, которые имеют 
различный размер. 

В программе 3.6 представлен метод динамического выделения памяти массивам, 
который позволяет использовать программы для различных задач без повторной ком- 
пиляции. Воспользуемся подобным методом для многомерных массивов. Как выде- 
лять память многомерным массивам, размер которых неизвестен на этапе компиля- 
ции? Другими словами, необходима возможность ссылаться в программе на элемент 
массива, такой как но не объявлять массив типа іп* аІМ][ІМ] (например), по- 

скольку значения М и N неизвестны. При организации хранения в порядке старшин- 
ства строк выражение вида 

іпѣ* а = таііос (М*Н*зігеоі: (іпѣ) ) ; 

распределяет память под массив целых чисел размером МхІЧ, но это решение при- 
емлемо не для всех случаев. Например, когда массив передается в функцию, во вре- 
мя компиляции можно не указывать только его первое измерение. Программа 3.16 
демонстрирует более эффективное решение для двумерных массивов, основанных на 
описании "массивы массивов". 

Программа 3.16 Распределение памяти под двумерный массив 

Эта функция динамически выделяет память двумерному массиву как массиву массивов. 

Сначала выделяется пространство массиву указателей, а затем — каждой строке. В этой 

функции выражение 

іпѣ **а = та11ос2Ц(М, Ы) ; 

выделяет память массиву целых чисел размером М х N. 
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іпЪ **та11рс2сІ(іп , Ь г, іп-Ь с) 

{ іп'Ь **Ъ = пеѵ іп'Ь'^Сг]; 

€ог (іпЪ і = 0; і < г; і++) 
1[і] = пѳѵ іп-Ь [с] ; 
геЪигп Ь; 


Программа 3.17 демонстрирует использование подобной составной структуры: 
массива строк. На первый взгляд, поскольку абстрактное понятие строки относится 
к массиву символов, массивы строк следовало бы представлять в виде массивов, со- 
стоящих из массивов. Однако конкретным представлением строки является указатель 
на начало массива символов, поэтому массив строк также может быть массивом 
указателей. Как показано на рис. 3.12, эффекта перераспределения строк можно до- 
стичь простым изменением расположения указателей массива. В программе 3.17 ис- 
пользуется библиотечная функция я$огі. Реализация подобных функций рассматрива- 
ется в главах 6-9 вообще и в главе 7 — особенно. Этот пример иллюстрирует типовой 
сценарий обработки строк: символы считываются в большой одномерный массив, ука- 
затели сохраняются в отдельных строках (ограниченных символами завершения), а 
затем осуществляется управление указателями. 
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РИСУНОК 3.12 СОРТИРОВКА СТРОК 

При обработке строк обычно используются указатели буфера, который содержит строки (верхняя 
диаграмма), поскольку указателями легче управлять, чем строками, имеющими различную длину. 
Например, в результате сортировки указатели перераспределяются таким образом , что при 
последовательном обращении к ним возвращаются строки в алфавитном (лексикографическом) 
порядке. 
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Нам уже встречалось другое применение массивов строк: массив аг§ѵ, используе- 
мый для передачи строковых аргументов функции таіп программ на С++. Система 
сохраняет в строковом буфере символы командной строки, введенные пользовате- 
лем, и передает в процедуру таіп указатель на массив указателей строк этого буфе- 
ра. Для вычисления чисел, соответствующих некоторым аргументам, используются 
функции преобразования. Остальные аргументы используются непосредственно как 
строки. 

Программа 3.17 Сортировка массива арок 

Эта программа иллюстрирует важную функцию обработки строк: расположение набора 
строк в порядке сортировки. Строки считываются в буфер, который достаточно велик, 
чтобы вместить их все. Для каждой строки в массиве сохраняется указатель. Затем 
изменяется расположение указателей, чтобы указатель на самую младшую строку 
помещался в первую позицию массива, указатель на следующую в алфавитном порядке 
строку — во вторую позицию и т.д. 

Библиотечная функция явоіі, которая в действительности выполняет сортировку, 
принимает четыре аргумента: указатель на начало строки, количество объектов, 
размер каждого объекта и функцию сравнения. Независимость от типа сортируемых 
объектов достигается за счет слепого перераспределения блоков данных, которые 
представляют объекты (в данном случае, указатели на строки), а также путем 
использования функции сравнения, принимающей в качестве аргумента указатель на 
ѵоісі. Программа выполняет обратное преобразование этих блоков в тип указателей на 
указатели символов для функции вігстр. Чтобы обратиться к первому символу строки 
для операции сравнения, разыменовываются три указателя: один для получения 
индекса (который является указателем) элемента массива, один для получения 
указателя строки (с помощью индекса) и еще один для получения символа (с помощью 
указателя). 

Мы используем другой метод достижения независимости от типа для функций 
сортировки и поиска (см. главы 4 и 6). 

#іпс1исіе <іозЪгеат.Ь> 

#іпс1исіе <зЪсі1іЪ.Ь> 

#іпс1исіе <зѣгіпд.Ь> 

іпѣ сотразге (сопз'Ь ѵоісі *і, сопзѣ ѵоісі *}) 

{ ге!:игп зѣгстр (* (сЬаг **)і, *(сЬаг **)}); } 

іп*Ь таіп () 

{ сопзѣ іпѣ №пах = 1000; 
сопзѣ іпѣ Мтах = 10000; 
сЬаг* а[№пах] ; іпЪ И; 
сЬаг Ъи^[Мтах]; іпѣ М = 0; 
іот (Ы = 0; N < №пах; Ы++) 

{ 

а [Ы] = &Ъи^ [М] ; 

і^ (!(сіп » а[Ы])) Ьгеак; 

М += 8Іг1еп (а [И] ) +1 ; 

} 

дзогѣ(а, И, зігео^ (сЬаг*) , сотраге) ; 

^ог (іпЪ і = 0; і < И; і++) 
соиѣ « а[і] « епсіі; 

} 
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Строить составные структуры данных можно также исключительно с помощью 
ссылок. На рис. 3.13 показан пример мультисписка , узлы которого имеют несколько 
полей ссылок и принадлежат независимо поддерживаемым связным спискам. При 
разработке алгоритмов для построения сложных структур данных часто применяют 
более одной ссылки для каждого узла, но это преследует цель эффективного управ- 
ления ими. Например, список с двойными связями является мультисписком, который 
удовлетворяет ограничению: оба выражения х->!->г и х->г->! эквивалентны х. В гла- 
ве 5 рассматривается намного больше важных структур данных с двумя ссылками для 
каждого узла. 

Если многомерная матрица является разреженной (зрагзе) (количество ненулевых 
элементов относительно невелико), для ее представления вместо многомерного мас- 
сива можно использовать мультисписок. Каждому значению матрицы соответствует 
один узел, а каждому измерению — одна ссылка. При этом ссылки указывают на сле- 
дующий элемент в данном измерении. Эта организация снижает размер области хра- 
нения. Она теперь не зависит от максимальных значений индексов измерений, а про- 
порциональна количеству ненулевых записей. Однако для многих алгоритмов 
увеличивается время выполнения, поскольку для доступа к отдельным элементам 
приходится отслеживать ссылки. 

Для ознакомления с дополнительными примерами составных структур данных и 
выяснения различий между индексированными и связными структурами данных рас- 
смотрим структуры данных, применяемые для представления графов. Граф — это 
фундаментальный комбинаторный объект, который описывается набором объектов 
(называемых вершинами) и набором связей между вершинами (называемых ребрами). 
Мы уже встречались с понятием графов в задаче связности из главы 1. 



РИСУНОК 3.13 МУЛЬТИСПИСОК 

Связывать узлы можно с помощью двух полей ссылок в двух независимых списках, по одному на 
каждое поле. Здесь правое поле связывает узлы в одном порядке (например, этот порядок может 
отражать последовательность создания узлов), а левое поле — в другом порядке (в нашем случае это 
порядок сортировки, возможно, результат сортировки вставками, использующей только левое поле 
ссылки). Отслеживая правые ссылки от узла а, мы обходим узлы в порядке их создания. Отслеживая 
левые ссылки от узла Ь, мы обходим узлы в порядке сортировки. 
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Предположим, что граф с количеством вершин V и 
количеством ребер Е описывается набором из Е пар 
целых чисел в диапазоне от 0 до Ѵ-1. Это означает, что 
вершины обозначены целыми числами 0, 1, Ѵ-1, а 

ребра определяются парами вершин. Как и в главе 1, 
пара Н обозначает связь между вершинами і и і, и име- 
ет то же значение, что и пара }-і. Составленные из та- 
ких ребер графы называются неориентированными 
(ипШгесШ) . Другие типы графов рассматриваются в ча- 
сти 7. 

Один из простых методов представления графа зак- 
лючается в использовании двумерного массива, назы- 
ваемого матрицей смежности (афасепсу таігіх). Она по- 
зволяет быстро определять, существует ли ребро между 
вершинами і и і путем простой проверки наличия нену- 
левого значения в записи матрицы, находящейся на пе- 
ресечении строки і и столбца Для неориентирован- 
ных графов, к которым принадлежит рассматриваемый, 
при наличии записи в строке і и столбце ^ обязательно 
существует запись в строке ] и столбце і. Поэтому 
матрица симметрична. На рис. 3.14 показан пример мат- 
рицы смежности для неориентированного графа. Про- 
грамма 3.18 демонстрирует создание матрицы смежно- 
сти для вводимой последовательности ребер. 

Программа 3.18 Представление графа в виде матрицы 
смежности 

■ тт — — ■— і— — — ши н ■ и і ■— к ■ ■ ■■ ■ ■■ і ■■■■ ■ ■■ іич ■■■ — — — і і >.■■■ і.і — — «— ^ 

Эта программа выполняет чтение набора ребер, 
описывающих неориентированный граф, и создает для 
него представление в виде матрицы смежности. При этом 
элементам аШШ и аЦ][і] присваивается значение 1, 
если существует ребро от і до \ либо от ) до і. В 
противном случае элементам присваивается значение 0. 
В программе предполагается, что во время компиляции 
количество вершин V постоянно. Иначе пришлось бы 
динамически выделять память под массив, 
представляющий матрицу смежности (см. упражнение 
3.71). 

#іпс1исіе ^оз^Ьгеат. Ь> 
іпѣ та±п() 

{ іпѣ і / 3 , асіз [V] [V] ; 

^ог (і = 0; і < V; і++) 

^ог (з =0; з < V; 3++) 

асЩіПз] = 0; 

Нот (і = 0; і < V; і++) асіз [і] [і] = 1; 
ѵЬіІе (сіп » і » з) 

{ асіз [і] ЕЛ = 1; асіз 1 3 1 [і] = 1; > 

} 
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РИСУНОК 3.14 ПРЕДСТАВЛЕНИЕ 
ГРАФА В ВИДЕ МАТРИЦЫ 
СМЕЖНОСТИ 

Граф представляет собой набор 
вершин и ребер у которые их 
соединяют. Для простоты 
вершинам присваиваются 
индексы (последовательность 
неотрицательных целых чисел , 
начиная с нуля). Матрица 
смежности — это двумерный 
массив , где граф 
представляется за счет 
установки разряда (значения 1) 
в строке і и столбце у в том и 
только том случае, когда 
между вершинами і и у 
существует ребро. Массив 
симметричен относительно 
диагонали. По соглашению 
разряды устанавливаются во 
всех позициях диагонали 
(каждая вершина соединена 
сама с собой). Например, 
шестая строка (и шестой 
столбец) показывают, что 
вершина 6 соединена с 
вершинами 0, 4 и 6. 
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Другой простой метод представления графа предусматривает использование мас- 
сива связанных списков, называемых списками смежности (аф'асепсу ІШз). Каждой 
вершине соответствует связный список с узлами для всех вершин, связанных с дан- 
ной. В неориентированных графах, если существует узел для вершины і в і-том спис- 
ке, то должен существовать узел для вершины і в ]-том списке. На рис. 3.15 показан 
пример представления неориентированного графа с помощью списков смежности. 
Программа 3.19 демонстрирует метод создания такого представления для вводимой 
последовательности ребер. 

Программа 3.19 Представление графа в виде списков смежности 

Эта программа считывает набор ребер, которые описывают граф, и создает его 
представление в виде списков смежности. Список смежности представляет собой 
массив списков, по одному для каждой вершины, где і-тый список содержит связный 
список узлов, присоединенных к і-той вершине. 

ііпсіисіе <іоа1:геат.Ь> 
а-Ьгисѣ по сіе 
{ іпі: ѵ; посіе* пехѣ; 
посіе (іпі: х, посіе* ѣ) 

{ ѵ * х ; пехѣ « ѣ ; } 

1 ; 

ѣуресіе^ посіе *1іпк; 
іпѣ та±п ( ) 

{ іпі: і , з ; Ііпк асіз [V] ; 

^ог (і = 0; і < V; і++) асіз [і] * 0; 
ѵЫІе (сіп » і » з) 

{ 

асізЕз] «в пеѵ посіе (і, асіз[зЗ); 
асіз [і] = пеѵ посіе (3 , асіз [і] ) ; 

} 

} 



РИСУНОК 3.15 ПРЕДСТАВЛЕНИЕ ГРАФА В ВИДЕ СПИСКОВ СМЕЖНОСТИ 

В этом представлении графа , изображенного на рис. 3. 14, применен массив списков. Необходимое для 
данных пространство пропорционально сумме количеств вершин и ребер. Для поиска индексов вершин , 
присоединенных к данной вершине і, анализируется і-тая позиция массива, содержащая указатель 
связного списка, который содержит по одному узлу для каждой присоединенной к і вершины. 
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Оба представления графа являются массивами более простых структур данных (по 
одной для каждой вершины), которые описывают ребра, связанные с данной верши- 
ной. Для матрицы смежности более простая структура данных реализована в виде 
индексированного массива, а для списка смежности — в виде связного списка. 

Таким образом, представление графа различными методами создает альтернатив- 
ные возможности расхода пространства. Для матрицы смежности необходимо про- 
странство, пропорциональное У 2 ; для списков смежности расход памяти пропорци- 
онален величине У + Е. При небольшом количестве ребер (такой граф называется 
разреженным ), представление^ использованием списков смежности потребует намного 
меньшего размера пространства. Если большинство пар вершин соединены ребрами 
(такой граф называется насыщенным ), использование матрицы смежности предпочти- 
тельнее, поскольку оно не связано со ссылками. Некоторые алгоритмы более эффек- 
тивны для представлений на базе матрицы смежности, поскольку требуют постоян- 
ных затрат времени для ответа на вопрос: "существует ли ребро между вершинами і и 
І?". Другие алгоритмы более эффективны для представлений на базе списков смеж- 
ности, поскольку они позволяют обрабатывать все ребра графа за время, пропорци- 
ональное V + Е, а не V 2 . Показательный пример этой альтернативы продемонстри- 
рован в разделе 5.8. 

Оба типа представлений можно элементарно распространить на другие типы гра- 
фов (для примера см. упражнение 3.70). Они служат основой большинства алгорит- 
мов обработки графов, которые будут исследоваться в части 7. 

В завершение главы рассмотрим пример, демонстрирующий использование со- 
ставных структур данных для эффективного решения простой геометрической зада- 
чи, о которой шла речь в разделе 3.2. Для данного значения й необходимо узнать 
количество пар из множества N точек внутри единичного квадрата, которые можно 
соединить отрезком прямой с длиной меньшей й. Программа 3.20 призвана снизить 
время выполнения программы 3.8 с приблизительным коэффициентом 1/й 2 при боль- 
ших значениях N. Для этого в программе задействован двумерный массив связных 
списков. Единичный квадрат разбивается на сетку меньших квадратов одинакового 
размера. Затем для каждого квадрата создается связный список всех точек, попада- 
ющих в квадрат. Двумерный массив обеспечивает немедленный доступ к набору то- 
чек, который является ближайшим по отношению к данной точке. Связные списки 
обладают гибкостью, позволяющей хранить все точки без необходимости знать зара- 
нее, сколько точек попадает в каждую ячейку сетки. 

Используемое программой 3.20 пространство пропорционально 1/й 2 + ^ но вре- 
мя выполнения составляет 0(й 2 ^), что дает большое преимущество перед прямоли- 
нейным алгоритмом из программы 3.8 при небольших значениях й. Например, для 
N = 10 6 и й = 0.001 затраты времени и пространства на решение задачи будут прак- 
тически линейно зависеть от N. При этом прямолинейный алгоритм потребует нео- 
правданно высоких затрат времени. Эту структуру данных можно использовать в ка- 
честве основы для решения многих других геометрических задач. Например, 
совместно с алгоритмом ипіоп-ГшсІ из главы 1 это даст близкий к линейному алгоритм 
определения факта возможности соединения отрезками длиной й набора из N слу- 
чайных точек на плоскости. Это фундаментальная задача из области проектирования 
сетей и цепей. 
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Программа 3.20 Двумерный массив списков 

Эта программа демонстрирует эффективность удачного выбора структуры данных на 
примере геометрических вычислений из программы 3.8. Единичный квадрат 
разбивается на сетку. Создается двумерный массив связных списков, причем каждой 
ячейке (квадрату) сетки соответствует один список. Размер ячеек достаточно мал, 
чтобы все точки в пределах расстояния сі от каждой данной точки попадали в одну 
ячейку с ней либо в смежную ячейку. Функция таІІос2сІ подобна такой же функции из 
программы 3.16, но она создана для объектов типа Ііпк, а не іпі. 

#іпс 1 шіе <ша 1 Ъ . Ъ> 

#±пс 1 шіе <±озѣгеат.Ь> 

#іпс 1 шіе <з 1 <і 1 іЬ . Ь> 

#іпс1шіе "Роіп'Ь.Ъ” 
зѣтсЪ по сіе 

{ роіпі: р; посіе *п ехЬ; 

по сіе (роіпі. рЬ, посіе* Ь) { р = рЪ; пвхЬ = Ь; } }; 

ѣуреЦе^ посіе * 1 іпк; 
зЪаЪіс Ііпк **дгісі; 

зЪаЪіс іпЪ (3, спЬ = 0 ; зЪаѣіс ^ІоаЪ сі; 
ѵоісі дгісііпзегѣ (^Іоаѣ х, ^ІоаЪ у) 

{ іпЪ X = х*(3+1; іп! У = у*(3+1; 
роіпі. р; р.х = х; р.у = у; 

Ііпк з, Ь = пеѵг посіе (р, дгісі[Х] [У] ) ; 

^ог (іпЪ і = Х-1; і <= Х+1; і++) 

^ог (іпЪ з = У-1; з <= /’ 3++) 

іог ( 8 = дгісі[і] [ 3 ] ; з != 0 ; з = з-^пехЪ) 
і^ (сіізѣапсе (з->р, *Ь->р) < сі) спі:++; 
дгісі [X] [У] = Ъ; 

} 

іпѣ таіп(іпѣ агдс, сЬаг *агдѵ[]) 

{ іпЪ і, N = аѣоі (агдѵ[1] ) ; 
сі = аѣо^ (агдѵ[ 2 ] ) ; 6 = 1 /сі; 
дгісі = та11ос2сі (С+2 , (3+2); 
іог (і = 0; і < (3+2 ; і++) 

^ог (іп+. з =0; з < (3+2; 3 ++) 
дгісі[і] [ 3 ] = 0 ; 

^ог (і = 0 ; і < Ы; і++) 

дгісііпзегі: (гапёПоаі () , гапсіРІоаѣ ( ) ) ; 
соиѣ « спѣ « " раігз ѵі-Ыііп ” « сі « епсіі; 

} 


Как следует из примеров данного раздела, данные различных типов можно объе- 
динять (косвенно, либо с помощью явных ссылок) в объекты, а последовательности 
объектов — в составные объекты. Таким образом, из базовых абстрактных конструк- 
ций можно строить объекты неограниченной сложности. Тем не менее, в этих при- 
мерах еще не достигнуто полное обобщение структурирования данных, как будет 
показано в главе 5. Прежде чем пройти последний этап, следует рассмотреть абстрак- 
тные структуры данных, которые можно создавать с помощью связных списков и 
массивов — основных средств достижения следующего уровня обобщения. 





Глава 3. Элементарные структуры данных 


Упражнения 

3.62 Написать версию программы 3.16, обрабатывающую трехмерные массивы. 

3.63 Изменить программу 3.17 для индивидуальной обработки вводимых строк (вы- 
делять память каждой строке после считывания ее из устройства ввода). Можно 
предположить, что длина каждой строки превышает 100 символов. 

3.64 Написать программу заполнения двумерного массива значений 0—1 путем 
установки значения 1 для элемента аШШ, если наибольшее общее кратное і и ^ 
равно единице, и установки значения 0 во всех остальных случаях. 

3.65 Воспользоваться программами 3.20 и 1.4 для разработки эффективного при- 
ложения, которое определяет, можно ли соединить набор из N точек отрезками 
длиной меньшей ё. 

3.66 Написать программу преобразования разреженной матрицы из двумерного 
массива в мультисписок с узлами для ненулевых значений. 

• 3.67 Реализовать перемножение матриц, представленных мультисписками. 

> 3.68 Отобразить матрицу смежности, построенную программой 3.18, для введен- 
ных пар значений: 0 - 2 , 1 - 4 , 2 - 5 , 3 - 6 , 0 - 4 , 6-0 и 1 - 3 . 

> 3.69 Отобразить список смежности, построенный программой 3.19, для введенных 
пар значений: 0 - 2 , 1 - 4 , 2 - 5 , 3 - 6 , 0 - 4 , 6-0 и 1 - 3 . 

о 3.70 Ориентированный (сіігесіесі) граф — это граф, у которого соединения между 
вершинами имеют направление: ребра следуют из одной вершины в другую. Вы- 
полнить упражнения 3.68 и 3.69, предположив, что вводимые пары представляют 
ориентированный граф, где обозначение [-} указывает, что ребро направлено от 
і к]. Кроме того, изобразить граф, используя стрелки для указания ориентации ре- 
бер. 

3.71 Модифицировать программу 3.18 таким образом, чтобы она принимала ко- 
личество вершин в качестве аргумента командной строки, а затем динамически 
распределяла память под матрицу смежности. 

3.72 Модифицировать программу 3.19 таким образом, чтобы она принимала ко- 
личество вершин в качестве аргумента командной строки, а затем динамически 
распределяла память под массив списков. 

о 3.73 Написать функцию, которая использует матрицу смежности графа для вычис- 
лений по заданным вершинам а и Ь количества вершин с со свойством наличия 
ребра от а до с и от с до Ь. 

о 3.74 Выполнить упражнение 3.73 с использованием списков смежности. 


Абстрактные 
типы данных 


Р азработка абстрактных моделей для данных и спосо- 
бов обработки этих данных является важнейшим ком- 
понентом в процессе решения задач с помощью компью- 
тера. Примеры этого мы видим на низком уровне в по- 
вседневном программировании (когда, например, как 
обсуждалось в главе 3, мы используем массивы и связные 
списки) и на высоком уровне при решении прикладных 
задач (как было продемонстрировано в главе 1, во время 
использования бора ипіоп-Ппб при решении задачи связ- 
ности. В настоящей главе рассматриваются абстрактные 
типы данных {аЪМгасІ даГа Іуре , в дальнейшем ЛТД), позво- 
ляющие создавать программы с использованием высоко- 
уровневых абстракций. За счет применения абстрактных 
типов данных появляется возможность отделять абстрак- 
тные (концептуальные) преобразования, которые про- 
граммы выполняют над данными, от любого конкретно- 
го представления структуры данных и любой конкретной 
реализации алгоритма. 

Все вычислительные системы базируются на уровнях 
абстракции : на основе определенных физических свойств 
кремния и других материалов берется абстрактная модель 
бита, который может принимать двоичные значения 0-1; 
затем на основе динамических свойств значений опреде- 
ленного набора битов берется абстрактная модель маши- 
ны; далее, на основе принципа работы машины под уп- 
равлением программы на машинном языке берется 
абстрактная модель языка программирования; и, нако- 
нец, берется абстрактное понятие алгоритма, реализуемое 
в виде программы на языке С++. Абстрактные типы дан- 
ных обеспечивают возможность продолжать этот процесс 
дальше и разрабатывать абстрактные конструкции для 
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определенных вычислительных задач на более высоком уровне, чем это обеспечива- 
ется системой С++; они позволяют также разрабатывать абстрактные конструкции, 
ориентированные на конкретные приложения и подходящие для решения задач в 
многочисленных прикладных областях; наконец, они позволяют создавать абстрак- 
тные конструкции более высокого уровня, в которых используются эти базовые кон- 
струкции. Абстрактные типы данных предоставляют в наше распоряжение постоян- 
но расширяющийся набор инструментальных средств, позволяющий приниматься за 
решение все новых и новых задач. 

С одной стороны, применение абстрактных конструкций освобождает от забот по 
их детальной реализации; с другой стороны, когда приходится учитывать произво- 
дительность (быстродействие) программы, необходимо знать затраты на выполнение 
базовых операций. Мы используем много базовых абстракций, встроенных в аппа- 
ратные средства компьютера и служащих основой для машинных инструкций. Мы 
также реализуем другие абстракции в программном обеспечении. Кроме того, мы 
используем еще третьи абстракции, существующие в написанном ранее системном 
программном обеспечении. Абстрактные конструкции более высокого уровня часто 
создаются на основе более простых конструкций. На всех уровнях действует один и 
тот же основной принцип: в своих программах мы должны найти наиболее важные 
операции и наиболее важные характеристики данных, затем точно определить и те 
и другие на абстрактном уровне и разработать эффективные конкретные механиз- 
мы для их поддержки. В настоящей главе приводится множество примеров примене- 
ния этого принципа. 

Для разработки нового уровня абстракции потребуется определить абстрактные 
объекты, с которыми необходимо манипулировать, и операции, которые должны 
выполняться над ними; мы должны представитъ данные в некоторой структуре дан- 
ных и реализовать операции; и (вот тема для упражнения) необходимо обеспечить, 
чтобы эти объекты было удобно использовать для решения прикладных задач. Пере- 
численные замечания применимы также к простым типам данных, и базовые меха- 
низмы для поддержки типов данных, которые обсуждались в главе 3, могут быть адап- 
тированы для наших целей. Однако язык С++ предлагает важное расширение для 
механизма структур, называемое классом. Классы исключительно полезны при созда- 
нии уровней абстракции и поэтому рассматриваются в качестве первейшего инстру- 
мента, который используется для этой цели на протяжении оставшейся части книги. 

Определение 4.1 Абстрактный тип данных (АТД) — это тип данных (набор зна- 
чений и совокупность операций для этих значений ), доступ к которому осуществляет- 
ся только через интерфейс. Программу, которая использует А ТД, будем называть кли- 
ентом , а программу, в которой содержится спецификация этого типа данных — 

реализацией. 

Ключевое отличие, делающее тип данных абстрактным, характеризуется словом 
только : в случае АТД клиентские программы не имеют доступа к значениям данных 
никаким другим способом, кроме как посредством операций, имеющихся в интерфей- 
се. Представление этих данных и функции, реализующие эти операции, находятся в 
реализации и полностью отделены интерфейсом от клиента. Мы говорим, что интер- 
фейс является непрозрачным: клиент не может видеть реализацию через интерфейс. 
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В программах на языке С++ это различие обычно проводится немного лучше, так 
как проще всего создавать интерфейс, включая в него представление данных; но при 
этом клиентским программам не разрешается прямой доступ к данным. Другими сло- 
вами, разработчики клиентских программ могут знать представление данных, но 
никоим образом не могут его использовать. 

В качестве примера рассмотрим интерфейс типа данных для точек (программа 3.3) 
из раздела 3.1. В этом интерфейсе явно объявляется, что точки представлены как 
структуры, состоящие из пары чисел с плавающей точкой, обозначаемых х и у. В са- 
мом деле, подобное применение типов данных является обычным в больших систе- 
мах программного обеспечения: мы разрабатываем набор правил относительно того, 
как должны быть представлены данные (а также определяем ряд связанных с ними 
операций), и делаем эти правила доступными через интерфейс, чтобы ими могли 
пользоваться клиентские программы, формирующие большую систему. Тип данных 
обеспечивает согласованность всех частей системы с представлением основных обще- 
системных структур данных. Какой бы хорошей такая стратегия ни была, она имеет 
один изъян: если необходимо изменить представление данных, то потребуется изме- 
нить и все клиентские программы. Программа 3.3 снова дает нам простой пример: 
одна из причин разработки этого типа данных — сделать так, чтобы клиентским про- 
граммам было удобно манипулировать с точками, и мы ожидаем, что в случае необ- 
ходимости у клиентов будет доступ к отдельным координатам точки. Но мы не мо- 
жем перейти к другому представлению данных (скажем, к полярным координатам, 
или трехмерным координатам, или даже к другим типам данных для отдельных ко- 
ординат) без изменения всех клиентских программ. 

В отличие от этого, программа 4.1 содержит реализацию абстрактного типа дан- 
ных, соответствующего типу данных из программы 3.3. В этой реализации использу- 
ется класс языка С++, в котором сразу определены как данные, так и связанные с 
ними операции. Программа 4.2 является клиентской программой, работающей с упо- 
мянутым типом данных. Эти две программы выполняют те же самые вычисления, что 
и программы 3.3 и 3.8. Они иллюстрируют ряд основных свойств классов, которые 
сейчас будут рассматриваться. 

Программа 4.1 Реализация класса РОІЫТ (точка) 

В этом классе определен тип данных, который состоит из набора значений, 
представляющих собой "пары чисел с плавающей точкой" (предполагается, что они 
интерпретируются как точки на декартовой плоскости), а также две функции-члена, 
определенные для всех экземпляров класса РОІЫТ: функция РОІЫТО, которая 
является конструктором, инициализирующим координаты случайными значениями от 
О до 1, и функция сй8іапсе(РОІЫТ), вычисляющая расстояние до другой точки. 
Представление данных является приватным (ргіѵаіе), и обращаться к нему или 
модифицировать его могут только функции-члены. В свою очередь, функции-члены 
являются общедоступными (риЫіс) и доступны для любого клиента. Код можно 
сохранить, например, в файле с именем РОШТ.схх. 

#іпс1исіе <та1:Ь . Ъ> 
сіазз РОЮТ 

{ 


^Іоаі: х, у; 
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риЫіс: 

РОШТ ( ) 

{ х = 1 . О *гапсі ( ) /КАМЭ_МАХ ; 
у = 1 . 0*гапсі ( ) /КА1П)__МАХ ; } 

^Іоаѣ сіізіапсе (РОШТ а) 

{ ±1оаЬ сіх = х-а.х, сіу = у-а.у; 
геѣигп 5дгЪ(сіх*сіх + сіу*сіу) ; } 

>; 


Когда мы записываем в программе определение наподобие іпі і, мы даем систе- 
ме команду зарезервировать область памяти для данных (встроенного) типа іп і, на 
которую будем ссылаться по имени і. В языке С++ такая сущность называется объек- 
том. При записи в программе такого определения, как РОЮТ р, говорят, что созда- 
ется объект класса РОЮТ, ссылка на который осуществляется но имени р. В нашем 
примере каждый объект имеет два элемента данных, которые называются х и у. Так 
же как и в случае структур, на них ссылаются по именам, подобным р.у. 

Элементы данных х и у называются данными-членами класса. В классе могут быть 
также определены функции-члены , которые реализуют операции, связанные с этим 
типом данных. Например, класс, определенный в программе 4.1, имеет две функции- 
члена, которые называются РОШТ и сІЫапсе. 

Клиентские программы, такие как программа 4.2, могут обращаться к функциям- 
членам, связанным с объектом, ссылаясь на них по именам точно так же, как они 
ссылаются на данные, находящиеся в какой-нибудь структуре 8ігисі. Например, вы- 
ражение р.<1і§іапсе^) вычисляет расстояние между точками р и ч (это же самое рас- 
стояние даст и выражение ч.сНз(апсе(р)). Функция РОШТ(), первая функция в про- 
грамме 4.1, является особой функцией-членом, называемой конструктором : у нее 
такое же имя, как и у класса, и она вызывается тогда, когда требуется создать объект 
этого класса. Определение РОЮТ р в про грамме- клиенте приводит к распределению 
области памяти под новый объект и затем (посредством функции РОШТ()) к присвое- 
нию каждому из двух его элементов данных случайного значения в диапазоне от 0 до 1. 

Программа 4.2 Программа-клиент для класса РОІІМТ (нахождение ближайшей точки) 

Эта версия программы 3.8 является клиентом, который использует АТД РОІЫТ, 
определенный в программе 4.3. Оператор пеѵѵ[] создает массив объектов 
абстрактного типа РОІЫТ (вызывая конструктор РОМТ() для инициализации каждого 
объекта случайными значениями координат). Оператор а[і].сіі${апсе(а[і]) вызывает для 
объекта а[і] функцию-член сіізіапсе с аргументом аЦ]. 

#іпс1шіе Сіозѣгеат. Ь> 

#іпс1исіе <зѣ<і1іЪ.1і> 

#іпс1и<іе "РОШТ . схх" 

іпѣ таіп(іпѣ агдс, сЬаг *агдѵ[]) 

{ ^Іоаі <і = аѣо^ (агдѵ[2] ) ; 
іпі і, спЪ = О, N = аЪоі (агдѵ [1] ) ; 

РОШТ ♦а = пеѵ РОШТ [Я] ; 

^ог (і = 0; і < Ы; і++) 

^ог (іпѣ з = і+1; ^ < Ы; 3 ++) 

(а [і] . сіізѣапсе (а [ Л ) < сі) спЬ++; 
соиѣ « сп-Ь « " раігз ѵі'ЬЪіп " « сі « епсіі ; 

} 
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Этот стиль программирования, который иногда называется объектно-ориентирован- 
ным программированием , полностью поддерживается конструкцией с1а§8 языка С++. 
Можно думать о классе как о расширении структуры, где мы не только собираем 
данные, но также определяем операции над этими данными. Может существовать 
много разных объектов, принадлежащих одному классу, но все они подобны в том, 
что их данные-члены могут принимать один и тот же набор значений и над этими 
данными-членами может выполняться одна и та же совокупность операций; корот- 
ко говоря, они являются экземплярами одного и того же типа данных. В объектно- 
ориентированном программировании мы даем объектам команды обрабатывать свои 
данные-члены (в противоположность использованию независимых функций для об- 
работки данных, хранимых в объектах). 

Этот небольшой класс рассматривается в качестве примера с той целью, чтобы 
познакомиться с основными особенностями классов; поэтому он — далеко не полно- 
стью завершенный класс. В реальном коде для класса точки у нас будет намного боль- 
ше операций. Например, в программе 4.1 отсутствуют даже операции, позволяющие 
узнавать значения координат х и у. Как мы увидим, добавление этих и других опе- 
раций — задача довольно простая. В части 5 мы более подробно рассмотрим классы 
для точки и других геометрических абстракций, например, линий и многоугольников. 

В языке С++ (но не в С) у структур также могут быть связанные с ними функ- 
ции. Ключевое различие между классами и структурами связано с доступом к инфор- 
мации, который характеризуется ключевыми словами ргіѵаіе и риЫіс. На приватный 
(ргіѵаіе) член класса можно ссылаться только внутри класса, в то время как на обще- 
доступный (риЫіс) член класса может ссылаться любой клиент. Приватными членами 
могут быть как данные, так и функции: в программе 4.1 приватными являются только 
данные, но далее мы увидим многочисленные примеры классов, в которых приват- 
ными будут также функции-члены. По умолчанию члены классов являются приват- 
ными, тогда как члены структур — общедоступными. 

Например, в клиентской программе, использующей класс РОЮТ, мы не можем 
ссылаться на данные-члены р.х, р.у и т.д., как могли бы в случае, если бы програм- 
ма использовала структуру РОЮТ, поскольку члены класса х и у являются приват- 
ными. Все что можно предпринять — это использовать для обработки точек общедо- 
ступные функции-члены. Такие функции имеют прямой доступ к данным-членам 
любого объекта этого класса. Например, когда в программе 4.1 мы вызываем функ- 
цию йі8іапсе с помощью оператора р.йі8іапсе(ч), в операторе йх = х - а.х имя х от- 
носится к данным-членам х в точке р (поскольку функция йЫапсе была вызвана как 
функция-член экземпляра р), а имя а.х относится к данным-члену х в точке ^ (так 
как ч — это действительный параметр, соответствующий формальному параметру а). 
Дабы исключить возможную двусмысленность или путаницу, можно было бы записать 
йх = Ш8->х-а.х, — ключевое слово Ш8 относится к указателю на объект, для кото- 
рого вызывается функция-член. 

Когда к данным-членам применяется ключевое слово 8іаііс, это, как и в случае 
обычных чисел, означает, что существует только одна копия этой переменной (отно- 
сящаяся к классу), а не множество копий (относящихся к отдельным объектам). Эта 
возможность часто используется, например, для отслеживания статистики, касающей- 
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ся объектов: можно в класс РОІІЧТ включить переменную $Шіс іпі N, добавить в кон- 
структор N+4-, и тогда появится возможность знать количество созданных точек. 

Конечно, можно принять за факт, что функция, вычисляющая расстояние между 
двумя точками, должна иметь не один аргумент (любую из двух точек), а, как в пре- 
дыдущей реализации, два аргумента (обе точки), что более естественно. В языке С++ 
этот подход можно реализовать, следующим образом определив в классе РОІІЧТ дру- 
гую функцию (1і§1апсе: 

зЪаЪіс сіізЪапсе (РОІЫТ а, РОІЫТ Ь) 

{ 

€1оаѣ сіх г= а.х — Ъ.х, сіу = а. у — Ь.у; 
геіпігп здгѣ(сіх*сіх + <іу*сіу) ; 

} 

Статическая функция-член может иметь доступ к членам класса, но ее не требу- 
ется вызывать для отдельного объекта. 

Другая возможная альтернатива — определить функцию <1і§іапсе как независимую 
функцию вне объявления класса РОІІЧТ (используя тот же самый код, что и в преды- 
дущем абзаце, но опуская ключевое слово §Шіс). Поскольку эта версия функции 
Шзіапсе должна иметь доступ к приватным данным-членам класса РОІІЧТ, в объяв- 
ление класса РОІІЧТ потребуется включить строку 

^гіепсі ігіоаѣ сіізіапсе (РОІИТ, РОІИТ) ; 

Дружественная (фгіепсі) функция — это функция, которая, не будучи членом клас- 
са, имеет доступ к его приватным членам. 

Чтобы клиентские программы имели возможность читать значения данных, можно 
определить функции-члены, возвращающие эти значения: 

ігіоаі: X () сопзѣ { гвѣигп х; } 

^Іоаѣ У () сопз-Ь { геѣигп у; } 

Эти функции определяются с ключевым словом соп§і, так как они не модифици- 
руют данные-члены объекта, для которого вызываются. Мы часто включаем в клас- 
сы языка С++ функции такого типа. Обратите внимание, что если бы использовалось 
другое представление данных, например, полярные координаты, то реализовать эти 
функции было бы труднее; тем не менее, эта трудность была бы прозрачной для кли- 
ента. Преимущества подобной гибкости можно также задействовать в функциях-чле- 
нах — если в реализации функции йі§іапсе из программы 4.1 вместо ссылок типа а.х 
использовать ссылки типа а.Х(), то при изменении представления данных не придется 
изменять этот код. Помещая эти функции в приватную часть класса, можно позво- 
лить себе такую гибкость даже в тех классах, где не требуется доступ клиента к дан- 
ным. 

Во многих приложениях главная цель создания класса связана с определением 
нового типа данных, наиболее адекватно отвечающего потребностям приложения. В 
таких ситуациях часто обнаруживается, что использовать этот тип данных требуется 
таким же самым образом, как и встроенные типы данных языка С++, например, іп{ 
или ПоаІ. Эта тема рассматривается более подробно в разделе 4.8. Один важный ин- 
струмент, помогающий нам достичь этой цели, называется перегрузкой операций 
(орегаіог оѵег!оасііп& )\ в языке С++ она позволяет задать, что к объекту класса необхо- 
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димо применить фундаментальную операцию и что в точности эта операция должна 
делать. Например, предположим, что требуется считать две точки идентичными, если 
расстояние между ними меньше чем 0.001. Добавляя в класс код 

^гіепсі іпЪ орега"Ьог== (РОЮТ а, РОЮТ Ь) 

{ геѣигп сіізЪапсѳ (а, Ь) < .001; } 


можно с помощью операции == проверять, равны ли две точки (согласно приведен- 
ному определению). 

Другой операцией, которую обычно желают перегрузить, является операция « из 
класса озГгеат. При программировании на языке С++ обычно полагают, что эту опе- 
рацию можно использовать для вывода значений любого объекта; в действительнос- 
ти же так можно делать только в том случае, если в классе определена перегружен- 
ная операция «. В классе РОЮТ это можно сделать следующим образом: 

оз < Ьгеат& орега , Ьог« (озѣгѳатб 1, РОЮТ р) 

{ 

соиѣ « "(" « р.Х() « « Р.У() « 

г е ѣиг п Ъ ; 

> 

Эта операция не является ни функцией-членом, ни даже дружественной: для до- 
ступа к данным она использует общедоступные функции-члены Х() и У(). 

Как понятие класса языка С++ соотносится с моделью клиент-интерфейс-реали- 
зация и абстрактными типами данных? Оно обеспечивает непосредственную языко- 
вую поддержку, но достаточно распространенным является тот факт, что существу- 
ет несколько различных подходов к созданию класса, которые можно использовать. 
Общепринято следующее правило: объявления общедоступных функций в классе образу- 
ют его интерфейс. Другими словами, представление данных хранится в приватной 
части класса, где оно недоступно для программ, использующих класс (клиентских 
программ). Все, что клиентские программы "знают" о классе — это общедоступная 
информация о его функциях-членах (имя, тип возвращаемого значения и типы ар- 
гументов). Чтобы подчеркнуть природу интерфейса (т.е. то, что он определяется по- 
средством класса), сначала рассмотрим интерфейс (как это иллюстрируется в про- 
грамме 4.3). Затем мы рассмотрим одну реализацию — программу 4.1. Здесь важно 
то, что такой порядок упрощает исследование других реализаций, с другими представ- 
лениями данных и другими реализациями функций, а также тестирование и сравне- 
ние реализаций, позволяя делать это без каких-либо изменений клиентских программ. 

Программа 4.3 Интерфейс абстрактного типа данных РОЮТ 

В соответствие с общепринятым правилом, интерфейс, относящийся к реализации АТД 
в виде класса, получают путем устранения приватных частей и замещения реализаций 
функций их объявлениями (сигнатурами). Данный интерфейс именно так и получен из 
программы 4.1. Мы можем использовать различные реализации, имеющие один и тот 
же интерфейс, без внесения изменений в код клиентских программ, работающих с 
этим АТД. 

сіазз РОШТ 
{ 


// программный код, зависящий от реализации 



Глава 4. Абстрактные типы данных 


* 


риЫіс : 

РОІЫТ ( ) ; 

^Іоаі: с&зЪапсе (РОШТ) сопзѣ; 


Для многих приложений возможность изменения реализаций является обязатель- 
ной. Например, предположим, что создается программное обеспечение для компании, 
которой необходимо обрабатывать списки почтовых адресов потенциальных клиен- 
тов. С помощью классов С++ можно определить функции, которые позволяют кли- 
ентским программам манипулировать с данными без непосредственного доступа к 
ним. Мы создаем функции-члены, возвращающие требуемые данные. Например, 
можно предоставить клиентским программам интерфейс, в котором определены та- 
кие операции как извлечь имя клиента или добавитъ запись клиента. Самое важное 
следствие такой организации заключается в том, что те же самые клиентские про- 
граммы можно использовать даже в том случае, если потребуется изменить формат 
списков почтовых адресов. Это значит, что можно изменять представление данных и 
реализацию функций, имеющих доступ к этим данным, без необходимости соответ- 
ствующей модификации клиентских программ. 

Подобного рода реализации типов данных в виде классов иногда называют конк- 
ретными типами данных (сопсгеіе даіа іурез). Однако, в действительности, тип данных, 
который подчиняется этим правилам, удовлетворяет также и нашему определению 
абстрактного типа данных (определение 4.1) — различие между ними является воп- 
росом точного определения таких слов, как '‘доступ", "называть" и "определять", что 
является делом довольно хитроумным, и мы оставляем его теоретикам языков про- 
граммирования. Действительно, в определении 4.1 точно не сформулировано, что 
такое интерфейс или как должны быть описаны тип данных и операции. Такая нео- 
пределенность является неизбежной, поскольку попытка точно выразить эту инфор- 
мацию в наиболее общем виде потребует использования формального математичес- 
кого языка и, в конце концов, приведет к трудным математическим вопросам. Этот 
вопрос является центральным при проектировании языка программирования. Вопро- 
сы спецификации будут рассматриваться позже, после изучения нескольких примеров 
абстрактных типов данных. 

Применение классов языка С++ для реализации абстрактных типов данных с со- 
блюдением общепринятого правила, гласящего, что интерфейс состоит из определе- 
ний общедоступных функций, не является идеальным вариантом, поскольку интер- 
фейс и реализация разделяются не полностью. Когда мы изменяем реализацию, нам 
приходится перекомпилировать программы-клиенты. Некоторые альтернативные 
варианты рассматриваются в разделе 4.5. 

Абстрактные типы данных возникли в качестве эффективного механизма поддер- 
жки модульного программирования как принципа организации больших современных 
систем программного обеспечения. Они являются средством, позволяющим ограни- 
чить размеры и сложность интерфейса между (потенциально сложными) алгоритма- 
ми и, связанными с ними структурами данных, с одной стороны, и программами (по- 
тенциально — большим количеством программ), использующими эти алгоритмы и 
структуры данных, с другой стороны. Этот принцип упрощает понимание больших 
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прикладных программ в целом. Более того, абстрактные типы данных, в отличие от 
простых типов данных, обеспечивают гибкость, необходимую для удобного измене- 
ния или улучшения в системе фундаментальных структур данных и алгоритмов. Са- 
мое главное, что интерфейс АТД определяет соглашение между пользователями и 
разработчиками, который обеспечивает точные правила взаимодействия, причем каж- 
дый знает, что можно ожидать от другого. 

В случае тщательно спроектированных АТД отделение программ-клиентов от ре- 
ализаций можно использовать различными интересными способами. Например, при 
разработке или отладке реализаций АТД обычно применяются программы-драйверы. 
Чтобы узнать свойства программ-клиентов, при построении систем в качестве запол- 
нителей часто используются также неполные реализации абстрактных типов данных, 
называемые заглушками (зшЬз). 

В настоящей главе абстрактные типы данных рассматриваются подробно потому, 
что они играют важную роль в изучении структур данных и алгоритмов. Действитель- 
но, важной движущей силой разработки почти всех алгоритмов, рассматриваемых в 
этой книге, является стремление обеспечить эффективные реализации базовых опе- 
раций для некоторых фундаментальных АТД, играющих исключительно важную роль 
при решении многих вычислительных задач. Проектирование абстрактного типа дан- 
ных — это только первый шаг навстречу потребностям прикладных программ; необ- 
ходимо также разработать живучие реализации связанных с ними операций, а также 
структур данных, лежащих в основе этих операций. Эти задачи и являются темой на- 
стоящей книги. Более того, абстрактные модели используются непосредственно для 
разработки алгоритмов и структур данных, а также для сравнения их характеристик 
производительности, как это было в примере из главы 1: как правило, разрабатыва- 
ется прикладная программа, использующая АТД, для решения некоторой задачи, за- 
тем разрабатываются несколько реализаций АТД и сравнивается их эффективность. 
В настоящей главе этот общий процесс рассматривается подробно, со множеством 
примеров. 

Программисты, пишущие на С++, регулярно используют как простые, так и аб- 
страктные типы данных. Когда мы на низком уровне обрабатываем целые числа, ис- 
пользуя только операции, имеющиеся в языке С++, мы, по существу, используем си- 
стемно определяемую абстракцию для целых чисел. На какой-нибудь новой машине 
целые числа могут быть представлены, а операции реализованы, каким-либо иным 
способом, но программа, которая использует только операции, определенные для 
целых чисел, будет работать корректно и на новой машине. В этом случае различные 
операции языка С++ для целых чисел составляют интерфейс, наши программы явля- 
ются клиентами, а программное и аппаратное обеспечение системы обеспечивают 
реализацию. Часто эти типы данных достаточно абстрактны для того, чтобы мы, не 
изменяя свои программы, могли перейти на новую машину со, скажем, другими 
представлениями для целых чисел и чисел с плавающей точкой. Однако этот пример 
иллюстрирует также тот факт, что такая идеальная ситуация случается не столь час- 
то, как хотелось бы, поскольку клиентские программы могут собирать информацию 
о представлении данных, определяя предельные значения того или иного ресурса. 
Например, узнать некоторую информацию о том, как в машине представлены целые 
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числа, можно, скажем, выполняя цикл, в котором некоторое целое число умножается 
на два до тех пор, пока не появится сообщение об ошибке переполнения. 

Ряд примеров в главе 3 представляет собой программы на С++, написанные в сти- 
ле языка С. Программисты на С часто определяют интерфейсы в заголовочных фай- 
лах, описывающих наборы операций для некоторых структур данных; при этом ре- 
ализации находятся в каком-нибудь другом, независимом файле программы. Такой 
порядок представляет собой соглашение между пользователем и разработчиком, и 
служит основой для создания стандартных библиотек, доступных в средах програм- 
мирования на языке С. Однако многие такие библиотеки включают в себя операции 
для определенной структуры данных и поэтому представляют собой типы данных, но 
не абстрактные типы данных. Например, библиотека строк языка С не является аб- 
страктным типом данных, поскольку программы, работающие со строками, знают, 
как представлены строки (массивы символов) и, как правило, имеют к ним прямой 
доступ через индексы массива или арифметику указателей. 

В отличие от этого, классы языка С++ позволяют нам не только использовать раз- 
ные реализации операций, но и создавать их на основе разных структур данных. 
Опять-таки, ключевое отличие, характеризующее АТД, заключается в том, что мы 
можем производить изменения, не модифицируя клиентские программы; это выте- 
кает из того требования, что доступ к типу данных должен осуществляться только 
посредством интерфейса. Ключевое слово св определении класса предотвращает пря- 
мой доступ клиентских программ к данным. Например, можно было бы включить в 
стандартную библиотеку языка С++ реализацию класса §ігіп§, созданную на базе, 
скажем, представления строки в виде связного списка и использовать эту реализацию 
без изменения клиентских программ. 

На протяжении всей настоящей главы мы будем видеть многочисленные приме- 
ры реализаций АТД с помощью классов языка С++. После четкого уяснения этих 
понятий в конце главы мы вернемся к обсуждению соответствующих философских и 
практических следствий. 

Упражнения 

> 4.1 Предположим, необходимо подсчитать количество пар точек, находящихся 
внутри квадрата со стороной й. Чтобы решить эту задачу, сделайте две разные вер- 
сии программы-клиента и реализации: во-первых, модифицируйте соответствую- 
щим образом функцию-член (Н§іапсе; во-вторых, замените функцию-член (ІЫапсе 
функциями-членами X и У. 

4.2 В программе 4.3 к классу точки добавьте функцию-член, которая возвращает 
расстояние до начала координат. 

о 4.3 В программе 4.3 модифицируйте реализацию АТД Роіп* таким образом, что- 
бы точки были представлены полярными координатами. 

о 4.4 Напишите клиентскую программу, которая считывает из командной строки 
целое число N и заполняет массив N точками, среди которых нет двух равных друг 
другу. Для проверки равенства или неравенства точек используйте перегруженную 
операцию ==, описанную в тексте настоящей главы. 
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•• 4.5 Используя представление на базе связного списка, подобное тому, что в про- 
грамме 3.14, преобразуйте интерфейс обработки списка (1і$1-ргосе$5Іп§ іпІегГасе) из 
раздела 3.4 (программа 3.12) в реализацию АТД на базе классов. Протестируйте 
полученный интерфейс, модифицируя клиентскую программу (программу 3.13) 
так, чтобы она использовала этот интерфейс; затем перейдите к реализации на 
базе массивов (см. упражнение 3.52). 

4.1 Абстрактные объекты и коллекции объектов 

Используемые в приложениях структуры данных часто содержат огромное коли- 
чество разнотипной информации, и некоторые элементы этой информации могут 
принадлежать нескольким независимым структурам данных. Например, файл персо- 
нальных данных может содержать записи с именами, адресами и какой-либо иной 
информацией о служащих; вполне возможно, что каждая запись должна принадлежать 
и к структуре данных, используемой для поиска информации об отдельных служащих, 
и к структуре данных, используемой для ответа на запросы статистического характера, 
и т.д. 

Несмотря на это разнообразие и сложность, в большом классе прикладных про- 
грамм обработки данных производятся обобщенные манипуляции объектами данных, 
а доступ к информации, связанной с этими объектами, требуется только в ограничен- 
ном числе особых случаев. Многие из этих манипуляций являются естественным про- 
должением базовых вычислительных процедур, поэтому их часто приходится выпол- 
нять в самых разнообразных приложениях. Многие из фундаментальных алгоритмов, 
рассматриваемых в настоящей книге, можно эффективно применять в какой-либо 
задаче построения уровня абстракции, позволяющего клиентским программам раци- 
онально выполнять эти манипуляции. Поэтому мы подробно рассмотрим многочис- 
ленные АТД, связанные с манипуляциями подобного рода. В этих АТД определены 
различные операции над коллекциями абстрактных объектов, не зависящие от типов 
самих объектов. 

В разделе 3.1, в котором обсуждалось применение простых типов данных для на- 
писания программ, не зависящих от типов объектов, для задания типов элементов 
данных использовался іурейеГ. Этот подход позволяет использовать один и тот же код 
для, скажем, целых чисел и чисел с плавающей точкой за счет простого изменения 
ІурейеГ При использовании указателей типы объектов могут быть сколь угодно слож- 
ными. При таком подходе часто приходится делать неявные предположения относи- 
тельно операций, выполняемых над объектами (например, в программе 3.2 предпо- 
лагается, что для объектов типа ІЧитЬег определены операции сложения, умножения 
и приведения к типу Лоаі) и, кроме того, мы не скрываем представление данных от 
клиентских программ. Абстрактные типы данных позволяют делать явными любые 
предположения относительно операций, выполняемых над объектами данных. 

В оставшейся части данной главы рассматривается несколько примеров использо- 
вания классов С++ с целью построения АТД для обобщенных объектов данных. Бу- 
дет продемонстрировано создание АТД для обобщенных объектов типа Иеш, позво- 
ляющие записывать клиентские программы, в которых объекты Иеш используются 
точно так же, как и встроенные типы данных. Там, где это необходимо, в классе Нет 
явно определяются операции, которые должны выполняться над обобщенными 
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объектами с помощью наших алгоритмов. Все эти характеристики объектов опреде- 
ляются вместе с сокрытием от клиентских программ любой информации о представ- 
лении данных. 

После реализации класса Ііет для обобщенных объектов (либо принятия решения 
использовать встроенный класс), воспользуемся механизмом шаблонов языка С++ для 
написания кода, который является обобщенным относительно типов объектов. На- 
пример, операцию обмена для обобщенных элементов можно определить следующим 
образом: 

'Ьетріаѣе <с1азз ІЪѳт> 

ѵоісі ехсЬ (І-Ьет &х, Іѣет бу) 

{ Нет ѣ = х ; х = у ; у = 1 ; ) 

Аналогичным образом реализуются и другие простые операции для элементов. С 
помощью шаблонов можно задавать семейства классов, по одному классу для каждо- 
го типа элементов. 

Разобравшись с классами обобщенных объектов, можно перейти к рассмотрению 
коллекций (соНесПоп) объектов. Многие структуры данных и алгоритмы применяются 
для реализации фундаментальных АТД, представляющих собой коллекции абстракт- 
ных объектов и создаваемых на основе двух следующих операций: 

■ вставить новый объект в коллекцию. 

■ удалить объект из коллекции. 

Такие АТД называются обобщенными очередями (% епегаГцед циеиез). Как правило, для 
удобства в них также явно включаются следующие операции: создать (сопзггисі) струк- 
туру данных (конструкторы), подсчитать (соипі) количество объектов в структуре дан- 
ных (или просто проверить, не пуста ли она). Могут потребоваться и операции, на- 
подобие уничтожить (дезігоу) структуру данных (деструкторы) и копировать (сору) 
структуру данных (конструкторы копирования); эти операции обсуждаются в разде- 
ле 4.8. 

Когда объект вставляется , намерения совершенно ясны; но какой объект имеется 
в виду при удалении объекта из коллекции? В разных АТД для коллекций объектов 
применяются различные критерии для определения того, какой объект удалять в 
операции удаления , и устанавливаются различные правила, связанные с этими крите- 
риями. Более того, помимо операций вставитъ и удалить , мы столкнемся с рядом 
других естественных операций. Многие алгоритмы и структуры данных, рассматри- 
ваемые в книге, были спроектированы с целью обеспечения эффективной реализа- 
ции различных поднаборов этих операций для разнообразных критериев выполнения 
операции удаления и других правил. Эти АТД в принципе просты, используются ши- 
роко и являются центральными в огромном числе задач по обработке данных; имен- 
но поэтому они заслуживают пристального внимания. 

Мы рассматриваем некоторые из этих фундаментальных структур данных, их 
свойства и примеры применения; в то же самое время мы используем их в качестве 
примеров, чтобы проиллюстрировать основные механизмы, используемые для разра- 
ботки АТД. В разделе 4.2 исследуется стек магазинного типа (ризкдош зіаск Л в кото- 
ром для удаления объектов используется следующее правило: всегда удаляется объект, 
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добавленный последним. В разделе 4.3 рассматриваются различные применения сте- 
ков, а в разделе 4.4 — реализации стеков, придерживаясь при этом того подхода, что 
реализации должны быть отделены от приложений. После обсуждения стеков мы вер- 
немся к предыдущему материалу и рассмотрим процесс создания нового АТД в кон- 
тексте абстракции ипіоп-Ппсі для задачи связности, которая исследовалась в главе 1. 
После этого мы вернемся к коллекциям абстрактных объектов и рассмотрим очере- 
ди РІРО (которые на данном уровне абстракции отличаются от стеков только тем, 
что в них применяется другое правило удаления элементов), а также обобщенные 
очереди, где запрещены повторяющиеся элементы. 

Как было показано в главе 3, массивы и связные списки обеспечивают основные 
механизмы, позволяющие вставлять и удалять заданные элементы. Действительно, 
связные списки и массивы — это структуры данных, лежащие в основе нескольких 
реализаций рассматриваемых нами обобщенных очередей. Как мы знаем, затраты на 
вставку и удаление элементов зависят от конкретной используемой структуры и от 
конкретного вставляемого или удаляемого элемента. В отношении некоторого дан- 
ного АТД задача заключается в том, чтобы выбрать структуру данных, позволяющую 
эффективно выполнять требуемые операции. В настоящей главе подробно рассмат- 
риваются несколько примеров абстрактных типов данных, для которых связные спис- 
ки и массивы обеспечивают подходящие решения. Абстрактные типы данных, обес- 
печивающие более эффективные операции, требуют более сложных реализаций, что 
является главной движущей силой создания многих алгоритмов, рассматриваемых в 
настоящей книге. 

Типы данных, которые состоят из коллекций абстрактных объектов (обобщенные 
очереди), являются центральным объектом изучения в компьютерных науках, по- 
скольку они непосредственно поддерживают фундаментальную модель вычислений. 
Оказывается, что при выполнении многих вычислений приходится иметь дело с боль- 
шим числом объектов, но обрабатывать их можно только поочередно — по одному 
объекту за один раз. Поэтому во время обработки одного объекта требуется, чтобы 
все остальные были сохранены. Эта обработка может включать проверку некоторых, 
уже сохраненных объектов, или добавление в коллекцию новых объектов, но опера- 
ции сохранения объектов и их извлечения в соответствии с определенным критери- 
ем являются основой таких вычислений. Как будет показано, этому шаблону соответ- 
ствуют многие классические структуры данных и алгоритмы. 

В языке С++ классы, реализующие коллекции абстрактных объектов, называют- 
ся контейнерными классами (сопіаіпег сіаззез). Некоторые из обсуждаемых структур дан- 
ных реализованы в библиотеке языка С++ или ее расширениях (стандартной библио- 
теке шаблонов — Зіапбагб Тетріаіе ІлЪгагу). Во избежание путаницы, мы будем редко 
ссылаться на эти классы, и материал книги представляется, начиная с самых основ. 

Упражнения 

> 4.6 Дайте определение для класса Иеш, в котором для проверки равенства чисел 
с плавающей точкой используется переіруженная операция ==. Считайте два числа 
с плавающей точкой равными, если абсолютная величина их разности, деленная на 
большее (по абсолютной величине) из двух чисел, меньше чем ІО” 6 . 
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> 4.7 Дайте определение класса Ііеш и перегрузите операции == и << так, чтобы их 
можно было использовать в программе обработки игральных карт. 

4.8 Перепишите программу 3.1 так, чтобы в ней использовался класс обобщенных 
объектов Ііеш. Ваша программа должна работать для любого типа объектов клас- 
са Иеш, которые могут выводиться при помощи операции «, генерироваться слу- 
чайным образом с использованием статической функции-члена гап<1() и для кото- 
рых определены операции + и /. 

4.2 АТД для стека магазинного типа 

Самый важный тип данных из тех, в которых определены операции вставить и 
удалить для коллекций объектов, называется стеком магазинного типа 

Стек работает отчасти подобно ящику для входящей корреспонденции весьма за- 
нятого профессора: работа скапливается стопкой, и каждый раз, когда у профессо- 
ра появляется возможность просмотреть какую-нибудь работу, он берет ее сверху. 
Работа студента вполне может застрять на дне стопки на день или два, однако, ско- 
рее всего, добросовестный профессор к концу недели управится со всей стопкой и 
освободит ящик. Далее несложно будет заметить, что работа компьютерных программ 
организована именно таким образом, и это вполне естественно. Они часто отклады- 
вают некоторые задачи и выполняют в это время другие; более того, зачастую им тре- 
буется в первую очередь вернуться к той задаче, которая была отложена последней. 
Таким образом, стеки магазинного типа являются фундаментальной структурой дан- 
ных для множества алгоритмов. 

Определение 4.2 Стек магазинного типа — это АТД , который включает две основ- 
ные операции: вставить , или затолкнуть (ри§Ь) новый элемент и удалить , или вытол- 
кнуть (рор) элемент, вставленный последним. 

Когда мы говорим об АТД стека магазинного типа , мы ссылаемся на описание опе- 
раций затолкнуть и вытолкнуть , которые должны быть определены достаточно хоро- 
шо для того, чтобы клиентская программа могла их использовать, а также на неко- 
торую реализацию этих операций, функционирующую в соответствии с правилом 
удаления элементов такого стека: последним пришел, первым ушел (Іазі-іп, Дгзі-оиі, сокра- 
щенно ЫГО). 

Программа 4.4 Интерфейс абстрактного типа данных стека 

Используя то же самое общепринятое правило, что и в программе 4.3, мы определяем 
АТД стека через объявление общедоступных функций. При этом предполагается, что 
представление стека и любой другой код, зависящий от реализации, являются 
приватными, чтобы можно было изменять реализации, не изменяя код клиентских 
программ. Кроме того, в этом интерфейсе применяется шаблон, что позволяет 
программам-клиентам использовать стеки, содержащие объекты любых классов (см. 
программы 4.5 и 4.6), а в реализациях использовать ключевое слово Кет в качестве 
обозначения типа объектов стека (см. программы 4.7 и 4.8). Аргумент конструктора 
$ТАСК задает максимальное количество элементов, которые можно поместить в стек. 

ѣетріаѣе <с1азз ІЪет> 
сіазз ЗТАСК 

{ 

ргіѵаѣе : 

// программный код, зависящий от реализации 
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риЫіс: 

ЗТАСК(іпЪ) ; 
іпѣ етрѣу() соп5”Ь; 
ѵоісі ризЬ(Іѣет іѣет) ; 
I Ъега рор ( ) ; 

} ; 


На рис. 4.1 показано, как изменяется содержимое 
стека в процессе выполнения серии операций затолк- 
нуть и вытолкнуть. Каждая операция затолкнуть уве- 
личивает размер стека на 1, а каждая операция вытол- 
кнуть уменьшает размер стека на 1. На рисунке 
элементы стека перечисляются в порядке их помеще- 
ния в стек, поэтому ясно, что самый правый элемент 
списка — это элемент, который находится на верхуш- 
ке стека и будет извлечен из стека, если следующей 
операцией будет операция вытолкнуть. В реализации 
элементы можно организовывать любым требуемым 
способом, однако при этом у программ-клиентов дол- 
жна сохранятся иллюзия, что элементы организован- 
ны именно таким образом. 

Как упоминалось в предыдущем разделе, для того 
чтобы можно было писать программы, использующие 
абстракцию стека, сначала необходимо определить 
интерфейс. С этой целью, как принято, объявляется 
совокупность общедоступных функций-членов, кото- 
рые будут использоваться в реализациях класса (см. 
программу 4.4). Все остальные члены класса делают- 
ся приватными (ргіѵаіе) и тем самым обеспечивается, 
что эти функции будут единственной связью между 
клиентскими программами и реализациями. В главах 1 
и 3 мы уже видели достоинства определения абстрак- 
тных операций, на которых основаны требуемые 
вычисления. Сейчас мы рассматриваем механизм, по- 
зволяющий записывать программы, в которых приме- 
няются эти абстрактные операции. Для реализации та- 
кой абстракции, для сокрытия структуры данных и 
реализации от программы-клиента используется меха- 
низм классов. В разделе 4.3 рассматриваются примеры 
клиентских программ, использующих абстракцию сте- 
ка, а в разделе 4.4 — соответствующие реализации. 

Первая строка кода в программе 4.4 (интерфейс абстрактного типа данных стек) 
добавляет в этот класс шаблон С++, позволяющий клиентским программам задавать 
тип объектов, которые могут заноситься в стек. 
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РИСУНОК 4.1 ПРИМЕР СТЕКА 
МАГАЗИННОГО ТИПА (ОЧЕРЕДИ, 
ФУНКЦИОНИРУЮЩЕЙ ПО 
ПРИНЦИПУ ПРО) 

Этот список отображает 
результаты выполнения 
последовательности операции. 
Левый столбец представляет 
собой выполняемые операции 
(сверху вниз), где буква означает 
операцию затолкнуть , а 
звездочка — операцию 
вытолкнуть. В каждой строке 
отображается выполняемая 
операция , буква , извлекаемая при 
операции выталкивания , и 
содержимое стека после 
операции (от первой занесенной 
буквы до последней — слева 
направо). 
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Объявление 

ЗТАСК<іп‘Ь> заѵв (Ы) 

определяет, что элементы стека $аѵе должны быть типа ІПІ (и что максимальное ко- 
личество элементов, которое может вмещать стек, равно ІЧ). Программа-клиент мо- 
жет создавать стеки, содержащие объекты типа Яоаі или сЬаг или любого другого типа 
(даже типа 8ТАСК); для этого необходимо просто изменить параметр шаблона в уг- 
ловых скобках. Мы можем считать, что в реализации указанный класс замещает класс 
Нет везде, где он встречается. 

В абстрактном типе данных назначение интерфейса состоит в том, чтобы служить 
в качестве соглашения между программой-клиентом и реализацией. Объявления фун- 
кций обеспечивают соответствие между вызовами в клиентской программе и опреде- 
лениями функций в реализации. Но с другой стороны, интерфейс не содержит ника- 
кой информации о том, как должны быть реализованы функции, или хотя бы как 
они должны функционировать. Как мы можем объяснить клиентской программе, что 
такое стек? Для простых структур, подобных стеку, можно было бы открыть код, но 
ясно, что в общем случае такое решение не может являться эффективным. Чаще все- 
го программисты прибегают к описаниям на английском языке и помещают их в до- 
кументацию на программу. 

Строгая трактовка этой ситуации требует полного описания того, как должны ра- 
ботать функции (с использованием формальной математической нотации). Такое опи- 
сание иногда называют спецификацией. Разработка спецификации обычно является 
трудной задачей. Она должна описывать любую программу, реализующую функции, 
на математическом метаязыке, тогда как мы привыкли определять работу функций 
с помощью кода, написанного на языке программирования. На практике работа фун- 
кций представляется в виде описаний на английском языке. Но давайте пойдем даль- 
ше, пока мы не углубились слишком далеко в гносеологические вопросы. В настоя- 
щей книге даются подробные примеры описаний на английском языке и по 
несколько реализаций для большинства рассматриваемых АТД. 

Чтобы подчеркнуть, что наша спецификация абстрактного типа данных стек пре- 
доставляет достаточно информации для написания осмысленной клиентской про- 
граммы, перед исследованием реализаций рассмотрим в разделе 4.3 две клиентские 
программы, использующие стеки магазинного типа. 

Упражнения 

> 4.9 В последовательности 

ЕАЗ*У*0ЦЕ***5Т***ІО*№*** 

буква означает операцию затолкнуть , а звездочка — операцию вытолкнуть. Дай- 
те последовательность значений, возвращаемых операциями вытолкнуть. 

4.10 Используя те же правила, что и в упражнении 4.9, вставьте звездочки в пос- 
ледовательность ЕА8Ѵ таким образом, чтобы последовательность значений, воз- 
вращаемых операциями вытолкнуть , была следующей: (і) ЕА8У; (іі) Ѵ8АЕ; (ііі) 
А8ѴЕ; (іѵ) АѴЕ8; или в каждом случае докажите, что такая последовательность не 
возможна. 
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•• 4.11 Предположим, что даны две последовательности. Разработайте алгоритм, по- 
зволяющий определить, можно ли к первой последовательности добавить звездоч- 
ки так, чтобы эта последовательность, будучи интерпретированной как последо- 
вательность стековых операций (аналогично упражнению 4.10), дала в результате 
вторую последовательность. 

4.3 Примеры программ-клиентов, 

использующих АТО стека 

В последующих главах мы увидим огромное количество приложений со стеками. 
Сейчас в качестве вводного примера рассмотрим применение стеков для вычисления 
арифметических выражений. Например, предположим, что требуется найти значение 
простого арифметического выражения с операциями умножения и сложения целых 
чисел: 

5*(((9 + 8)*(4*б))+7) 

Это вычисление включает сохранение промежуточных результатов: например, если 
сначала вычисляется 9 + 8, придется сохранить результат 17 на время, пока, скажем, 
вычисляется 4 * 6 . Стек магазинного типа представляет собой идеальный механизм 
для сохранения промежуточных результатов таких вычислений. 

Начнем с рассмотрения более простой задачи, где выражение, которое необходи- 
мо вычислить, имеет другую форму: знак операции стоит после двух своих аргумен- 
тов, а не между ними. Как будет показано, в такой форме может быть представлено 
любое арифметическое выражение, причем форма носит название постфиксной , в 
отличие от инфиксной — обычной формы записи арифметических выражений. Вот 
постфиксное представление выражения из предыдущего абзаца: 

598 + 46**7 + * 

Форма записи, обратная постфиксной, называется префиксной или Польской запи- 
сью (так как ее придумал польский логик Лукашевич (Ьиказіеѵѵісг)). 

При инфиксной записи чтобы отличить, например, выражение 

5* ( ( (9 + 8) * (4*6) ) + 7) 

от выражения 

( (5*9) + 8) * ( (4*6) + 7) 

требуются скобки; но при постфиксной (или префиксной) записи скобки не нужны. 
Чтобы увидеть почему, можно рассмотреть следующий процесс преобразования по- 
стфиксного выражения в инфиксное: все группы из двух операндов и следующим за 
ними знаком операции замещаются их инфиксными эквивалентами и заключаются в 
круглые скобки для демонстрации того, что этот результат может рассматриваться как 
операнд. То есть, группы аЬ* и аЪ+ замещаются группами (а * Ь) и (а + Ь), соответ- 
ственно. Затем то же самое преобразование выполняется с полученным выражени- 
ем, продолжая процесс до тех пор, пока не будут обработаны все операции. В нашем 
примере преобразование будет происходить следующим образом: 
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598 + 46**7 + * 

5(9 + 8) (4*6) *7 + * 

5 ( (9 + 8) * (4*6) ) 7 + * 

5( ( (9 + 8) * (4*6) )+7) * 

(5* ( ( (9 + 8) * (4*6) )+7) ) 

Таким способом в постфиксном выражении можно 
определить все операнды, связанные с любой операцией, 
поэтому необходимость в применении скобок отпадает. 

С другой стороны, с помощью стека можно действи- 
тельно выполнить эти операции и вычислить значение 
любого постфиксного выражения (см. рис. 4.2). Переме- 
щаясь слева направо, мы интерпретируем каждый опе- 
ранд как команду "занести операнд в стек", а каждый 
знак операции — как команды "извлечь из стека два опе- 
ранда, выполнить операцию и занести результат в стек". 

Программа 4.5 является реализацией этого процесса на 
языке С++. Обратите внимание, что, поскольку АТД Стек 
создан на основе шаблона, один и тот же код может ис- 
пользоваться и для создания стека целых чисел в этой 
программе, и стека символов в программе 4.6. 

Программа 4.5 Вычисление постфиксного выражения 

Эта программа-клиент для стека магазинного типа 
считывает любое постфиксное выражение, включающее 
умножение и сложение целых чисел, затем вычисляет это 
выражение и распечатывает полученный результат. 

Промежуточные результаты она хранит в стеке целых чисел; 
при этом предполагается, что интерфейс из программы 4.4 
реализован в файле ЗТАСК.схх как класс, созданный на 
основе шаблона. 

Когда встречаются операнды, они заносятся в стек; когда встречаются знаки операций, 
из стека извлекаются два верхних элемента, над ними выполняется данная операция 
и результат снова заносится в стек. Порядок, в котором две операции рор() 
выполняются в выражениях данного кода, в языке С++ не определен, поэтому код для 
некоммутативных операций, таких как вычитание или деление, был бы более сложным. 

В программе неявно предполагается, что целые числа и знаки операций ограничены 
какими-нибудь другими символами (скажем, пробелами), но программа не проверяет 
корректность входных данных. Последний оператор іі и цикл ѵѵННе выполняют 
вычисление, подобное тому, что выполняет функция аіоі языка С++, которая 
преобразует строки в коде А5СІІ в целые числа, готовые для вычислений. Когда 
встречается новая цифра, накопленный результат умножается на 10 и к нему 
прибавляется эта цифра. 

#іпсДлкіе <іо8ѣгват.Ь> 
ііпсіисіе <вѣгіпд.Ь> 

#іпс1исів "ЗТАСК. схх" 

іггЬ таіп(іпѣ агдс, сЬаг *агдѵ[]) 

{ сЬаг *а « агдѵ[1] ; іпѣ N = вѣгіеп(а); 

8ТАСК<±пѣ> ваѵв (К) ; 

^ог (іпѣ і = 0; і < Ы; і++) 
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РИСУНОК 4.2 ВЫЧИСЛЕНИЕ 

ПОСТФИКСНОГО 

ВЫРАЖЕНИЯ 

Эта последовательность 
операций показывает , как 
стек используется для 
вычисления постфиксного 
выражения 5 9 8 + 46 * * 7 
+ * Выражение 
обрабатывается слева 
направо и, если встречается 
число , оно заносится в стек; 
если же встречается знак 
операции, то эта операция 
выполняется над двумя 
верхними числами стека и 
результат опять заносится 
в стек. 
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і* (а [і] == ' + ’) 

заѵе . ризЬ ( заѵе . рор ( ) + заѵе . рор ( ) ) ; 
і* (а [і] == '*') 

заѵе . ризЬ (заѵе . рор ( ) * заѵе . рор ( ) ) ; 

( (а[і] >= 'О') && (а [і] <= '9')) 
заѵе.ризЬ(О) ; 

ѵЫІе ( (а [і] >= 'О') && (а [і] <= * 9 * ) ) 

заѵе .ризЬ (10* заѵе .рор () + (а [і++] - ' 0 ' ) ) ; 

} 

соиѣ « заѵе. рор () « епсіі; 

} 


Постфиксная запись и стек магазинного типа обеспечивают естественный способ 
организации ряда вычислительных процедур. В некоторых калькуляторах и языках 
программирования метод вычислений явно базируется на постфиксной записи и сте- 
ковых операциях — при выполнении любой операции ее аргументы извлекаются из 
стека, а результат возвращается в стек. 

Примером такого языка является язык Ро$і$сгірІ. Это завершенный язык про- 
граммирования, в котором программы пишутся в постфиксном виде и интерпрети- 
руются с помощью внутреннего стека, точно как в программе 4.5. Хотя мы не можем 
осветить здесь все аспекты этого языка (см. раздел ссылок ), он достаточно прост и мы 
можем изучить некоторые реальные программы, чтобы оценить полезность постфик- 
сной записи и абстракции стека магазинного типа. Например, строка 

5 9 8 асісі 4 6 шиі шиі 7 асісі тиі 

является программой на языке РозіЗсгірі! Программа на языке Ро$1$сгірІ состоит из 
операций (таких, как айй и тиі) и операндов (таких, как целые числа). Программу 
на этом языке мы интерпретируем так же, как делали это в программе 4.5 — читая 
ее слева направо. Если встречается операнд, он заносится в стек; если встречается 
знак операции, из стека извлекаются операнды для этой операции (если они есть), а 
затем результат (если он есть) заносится в стек. Таким образом, на рис. 4.2 полнос- 
тью описан процесс выполнения этой программы: после выполнения программы в 
стеке остается число 2075 . 

В языке Ро$і5сгірі имеется несколько простых функций, которые служат инструк- 
циями для абстрактного графопостроителя; кроме того, можно определять и соб- 
ственные функции. Эти функции с аргументами, расположенными в стеке, вызыва- 
ются таким же способом, как и любые друіие функции. Например, следующий код на 
языке Ро$1$сгірІ 

0 0 шоѵе'Ьо 144 Ы11 0 72 тоѵеѣо 72 Ы11 зЪгоке 

соответствует последовательности действий "вызвать функцию тоѵеіо с аргументами 
О и 0, затем вызвать функцию ЬШ с аргументом 144" и т.д. Некоторые операции от- 
носятся непосредственно к самому стеку. Например, операция йир дублирует элемент 
в верхушке стека; поэтому, например, код 

144 сіир 0 гііпеѣо 60 го'Ьаѣе сіир 0 г1іпе1:о 
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соответствует следующей последовательности дей- 
ствий: вызвать функцию гііпеіо с аргументами 144 
и 0, затем вызвать функцию гоіаіе с аргументом 
60, затем вызвать функцию гііпеіо с аргументами 
144 и 0 и т.д. В программе РозіЗсгірІ, показанной 
на рис. 4.3, определяется и используется функция 
ЫН. Функции в языке Ро$і5сгірІ подобны макросам: 
последовательность /ЫН { А } Не? делает имя Нііі 
эквивалентным последовательности операций 
внутри фигурных скобок. Рисунок 4.3 представля- 
ет пример программы Ро8І$сгірІ, в которой опре- 
деляется функция и вычерчивается простая диаг- 
рамма. 

В данном контексте наш интерес к языку 
РоБіЗсгірІ объясняется тем, что этот широко ис- 
пользуемый язык программирования базируется 
на абстракции стека магазинного типа. Действи- 
тельно, в аппаратных средствах многих компьюте- 
ров реализованы основные стековые операции, 
поскольку они являются естественным воплощени- 
ем механизма вызова функций: при входе в проце- 
дуру текущее состояние программной среды со- 
храняется путем занесения информации в стек; 
при выходе из процедуры состояние программной 
среды восстанавливается за счет извлечения ин- 
формации из стека. Как будет показано в главе 5, 
эта связь между магазинными стеками и програм- 
мами, которые организованы в виде функций, об- 
ращающихся к другим функциям, отражает важ- 
ную модель вычислительного процесса. 

Возвращаясь к первоначальной задаче, отме- 
тим, что, как иллюстрирует рис. 4.4, магазинный 
стек можно также использовать для преобразова- 
ния инфиксного арифметического выражения с 
круглыми скобками в постфиксную форму. При 
выполнении этого преобразования знаки операций 
заносятся в стек, а сами операнды просто переда- 
ются в выходной поток программы. Правая скоб- 
ка показывает, что два последних числа на выходе 
программы являются аргументами операции, знак 
которой занесен в стек последним. Поэтому этот 
знак операции можно извлечь из стека и также пе- 
редать в выходной поток программы. 

Программа 4.6 представляет собой реализацию 
этого процесса. Обратите внимание, что аргумен- 



/М11 -С 

<1ир 0 гІіпеЪо 
60 тоХаХе 
<1ир 0 гііпеъо 
-120 го-Ьаѣе 
<1ир 0 гІіпеЪо 
60 тоХаХе 
<1ир 0 гІіпеЪо 

рор 

> <іе* 

0 0 тоѵе-Ьо 
144 МП 
0 72 тоѵе-Ьо 
72 МП 
з 1 г оке 

РИСУНОК 4.3 ПРОСТАЯ ПРОГРАММА 
НА ЯЗЫКЕ Р05Т5СКІРТ 

Диаграмма в верхней части рисунка 
была вычерчена программой 
РоБіЗсгірІ, расположенной под ней. 
Программа является постфиксным 
выражением , в котором 
используются встроенные функции 
тоѵеіо, гііпеіо, гоіаіе, вігоке и Лир ; в 
ней также используется 
определяемая пользователем функция 
МП (см. текст). Графические 
команды являются инструкциями 
графопостроителю: команда тоѵеіо 
устанавливает печатающую головку 
устройства на заданную позицию 
страницы (координаты даются в 
пунктах, равных 1/72 дюйма); 
команда гііпеіо перемещает 
печатающую головку на новую 
позицию, координаты которой 
задаются относительно текущей 
позиции, и тем самым она добавляет 
очередной участок к пройденному 
пути; команда гоіаіе изменяет 
направление движения печатающей 
головки, заставляя ее повернуть 
влево на заданное число градусов; 
команда зігоке чертит пройденный 
путь. 
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ты в постфиксном выражении расположены в том же самом 
порядке, что и в инфиксном выражении. Забавно также от- 
метить, что левые скобки в инфиксном выражении не нуж- 
ны. Однако они необходимы, если существуют операции, име- 
ющие разное количество операндов (см. упражнение 4.14). 

Помимо того, что алгоритм, разработанный в данном 
разделе для вычисления инфиксных выражений, предоста- 
вил два разных примера использования абстракции стека, 
он и сам по себе является упражнением по абстракциям. 
Во-первых, входные данные преобразуются в промежуточ- 
ное представление (постфиксное выражение). Во-вторых, 
для интерпретации и вычисления этого выражения имити- 
руется работа абстрактной машины, функционирующей на 
основе стека. В целях эффективности и мобильности эта же 
схема работы наследуется многими современными компи- 
ляторами: задача компиляции программы на С++ для неко- 
торого компьютера разбивается на две задачи, которые 
концентрируются вокруг промежуточного представления. 
Поэтому задача трансляции программы отделяется от зада- 
чи выполнения этой программы, точно так же как это де- 
лалось в данном разделе. В разделе 5.7 будет показано род- 
ственное, но другое промежуточное представление. 

Программа 4.6 Преобразование из инфиксной формы в 
постфиксную 

Эта программа является еще одним примером программы- 
клиента для стека магазинного типа. В данном случае стек 
содержит символы. Для преобразования (А+В) в постфиксную 
форму АВ+ левая скобка игнорируется, в выходной поток 
записывается А, в стеке запоминается знак +, в выходной поток 
записывается В и затем при встрече правой скобки из стека 
извлекается знак + и он же записывается в выходной поток. 

#іпс1исіе <іоз'Ьгеат. Ь> 

#іпс1шів <зі:гіпд.1і> 

#іпс1и<3в "ЗТАСК. схх" 

іп-Ь таіпСіпІ: агдс, сЬаг *агдѵ[]) 

{ сЬаг *а = агдѵ[1] ; іпѣ N = зігіеп(а); 

5ТАСК<сЬаг> орз (1*) ; 

Нот (іпі: і = 0; і < К; і++) 

{ 

і* (а [і] == ')’) 

соиѣ « орз.рорО « " " ; 

іі: ( (а [і] == ' + ’) И (а [і] == '*')) 
орз .ризЬ (а [і] ) ; 

іі: ( (а [і] >= '0') && (а [і] <= ’9')) 
сои-Ь « а [ і ] « " " ; 

> 

соиѣ « епсіі ; 

> 


( 

5 5 
* 

( 

( 

( 

9 9 

+ 

8 8 

) + 

* 

( 

4 4 

* 

6 6 

) 

) 

+ 

7 7 

) + 

) 

РИСУНОК 4.4 
ПРЕОБРАЗОВАНИЕ 
ИНФИКСНОГО 
ВЫРАЖЕНИЯ В 
ПОСТФИКСНОЕ 

Данная 

последовательность 
операций демонстрирует 
использование стека для 
преобразования инфиксного 
выражения 

(5*(((9+8)*(4*6))+7)) в 
его постфиксную форму 5 
98 + 46**7 + *. 

Выражение 
обрабатывается слева 
направо: если встречается 
число , оно записывается в 
выходной поток ; если 
встречается левая скобка , 
она игнорируется; если 
встречается знак 
операции , он заносится в 
стек; и если встречается 
правая скобка , то в 
выходной поток 
записывается знак 
операции , находящийся на 
верхушке стека. 


+ 

* 

* 

* 

* 
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Это приложение также иллюстрирует достоинства абстрактных типов данных и 
шаблонов С++. Здесь используются два разных стека, один из которых содержит 
объекты типа сЬаг (знаки операций), а другой — объекты типа іпі (операнды). С по- 
мощью АТД в виде шаблонного класса, определенного в программе 4.4, можно даже 
объединить две рассмотренных клиентских программы в одну (см. упр. 4.19). Несмот- 
ря на привлекательность решения, стоит сознавать, что это, по-видимому, не самый 
лучший выбор, поскольку различные реализации могут отличаться своей производи- 
тельностью и, возможно, не следовало бы априори решать, что в обоих случаях бу- 
дет применяться одна и та же реализация. Действительно, главное внимание уделя- 
ется реализации и производительности, и сейчас мы приступим к рассмотрению этих 
тем применительно к стеку магазинного типа. 

Упражнения 

> 4.12 Преобразуйте в постфиксное выражение 

(5*((9*8) + (7*(4 + 6)))) . 

> 4.13 Таким же способом, как на рис. 4.2, покажите содержимое стека при вычис- 
лении программой 4.5 следующего выражения 

59*8746 + *213* + * + * . 

> 4.14 Расширьте программы 4.5 и 4.6 таким образом, чтобы они включали опера- 
ции — (вычитание) и / (деление). 

4.15 Расширьте решение упражнения* 4.14 таким образом, чтобы оно включало унар- 
ные операции — (отрицание) и $ (извлечение квадратного корня). Кроме того, изме- 
ните механизм абстрактного стека в программе 4.5 так, чтобы можно было исполь- 
зовать числа с плавающей точкой. Например, имея в качестве исходного выражение 

(-(-1) + $((-і) * (-1) - (4 * (-1)))) / 2 

программа должна выдать число 1.618034. 

4.16 Напишите на языке РозіЗсгірІ программу, которая чертит следующую 

фигуру: __| [___ 

• 4.17 Методом индукции докажите, что программа 4.5 правильно вычисляет любое 
постфиксное выражение. 

о 4.18 Напишите программу, которая с использованием стека магазинного типа 
преобразует постфиксное выражение в инфиксное. 

о 4.19 Объедините программы 4.5 и 4.6 в один модуль, в котором будут использо- 
ваться два разных АТД: стек целых чисел и стек операций (знаков операций). 

•• 4.20 Реализуйте компилятор и интерпретатор для языка программирования, в ко- 
тором каждая программа состоит из одного арифметического выражения. Выра- 
жению предшествует ряд операторов присваивания с арифметическими выраже- 
ниями, состоящими из целых чисел и переменных, обозначаемых одиночными 
символами нижнего регистра. Например, получив входные данные 

(х = 1) 

(у * (х + і)) 

(((х + у) * 3) + (4 * х)) 

программа должна вывести число 13. 
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4.4 Реализации АТД стека 

В данном разделе рассматриваются две реализации АТД стека: в одной использу- 
ются массивы, в другой — связные списки. Эти реализации получаются в результате 
простого применения базовых инструментальных средств, рассмотренных в главе 3. 
Мы полагаем, что они различаются только своей производительностью (быстродей- 
ствием). 

Программа 4.7 Реализация стека магазинного типа на базе массива 

В этой реализации N элементов стека хранятся как элементы массива: 8[0], ... , 8[Ы-1], 
начиная с первого занесенного элемента и завершая последним. Верхушкой стека 
(позицией, в которую будет заноситься следующий элемент стека) является позиция 
8[М]. Максимальное количество элементов, которое может вмещать стек, программа- 
клиент передает в виде аргумента в конструктор 5ТАСК, размещающий в памяти 
массив данного размера; однако код не проверяет такие ошибки, как помещение 
элемента в переполненный стек (или выталкивание элемента из пустого стека). 

ѣвтріаѣе <с1азз Пеле* 
сіазз ЗТАСК 
{ 


І-Ьет *з; іпЬ. Ы; 
риЫіс : 

ЗТАСК (іп-Ь тахЫ) 

{ 5 = пеѵ І1еш[тахК] ; N = 0 ; } 

іпѣ етр-Ьу() сопзЬ. 

{ ге-Ьигп N == 0 ; } 

ѵоіеі ризЬ(І1:ет і-Ьет) 

{ з [N+4-] = і-Ьет; } 

I ѣет рор ( ) 

{ ге-Ьигп з[--Н]; } 


Если для представления стека применяется массив, то все функции, объявленные 
в программе 4.4, реализуются очень просто, что видно из программы 4.7. Элементы 
заносятся в массив в точности так, как показано на рис. 4.1, при этом отслеживает- 
ся индекс верхушки стека. Выполнение операции затолкнуть означает запоминание 
элемента в позиции массива, указываемой индексом верхушки стека, а затем увели- 
чение этого индекса на единицу; выполнение операции вытолкнуть означает умень- 
шение индекса на единицу и извлечение элемента, обозначенного этим индексом. 
Операция создать (конструктор) осуществляет размещение массива указанного раз- 
мера, а операция проверить, пуст ли стек проверяет, не равен ли индекс нулю. Ском- 
пилированная вместе с клиентской программой (такой, как программа 4.5 или 4.6), 
эта реализация обеспечивает рациональный и эффективный стек магазинного типа. 

Один потенциальный недостаток применения массива для представления стека 
известен многим: как это обычно бывает со структурами данных, создаваемыми на 
базе массивов, до использования массива необходимо знать его максимальный раз- 
мер, чтобы распределить под него оперативную память. В рассматриваемой реализа- 
ции эта информация передается в аргументе конструктора. Данный недостаток — ре- 
зультат выбора реализации на базе массива; он не является неотъемлемой частью АТД 
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стека. Зачастую трудно определить максимальное 
число элементов, которое программа будет заносить 
в стек: если выбрать слишком большое число, то та- 
кая реализация будет неэффективно использовать 
оперативную память, а это может быть нежелатель- 
но в тех приложениях, где память является ценным 
ресурсом. Если выбрать слишком маленькое число, 
программа может вообще не работать. Применение 
АТД дает возможность рассматривать другие вариан- 
ты и изменять реализацию без изменения кода кли- 
ентских программ. 

Например, чтобы стек мог элегантно увеличи- 
ваться и уменьшаться, можно было бы отдать Пред- 
почтение связному списку, как в программе 4.8. 
Стек организован в обратном порядке по сравнению 
с реализацией на базе массива — начиная с после- 
днего занесенного элемента и завершая первым. 
Этот (см. рис. 4.5) позволяет более просто реализо- 
вать базовые стековые операции. Чтобы вытолкнуть 
элемент, удаляется узел в начале списка и извлека- 
ется из него элемент; чтобы втолкнуть элемент, со- 
здается новый узел и добавляется в начало списка. 
Поскольку все операции связного списка выполня- 
ются в начале списка, узел, соответствующий вер- 
хушке стека, не требуется. 

Программа 4.8 не проверяет такие ошибки, как 
попытка извлечения элемента из пустого стека, за- 
несения элемента в переполненный стек или выход 
за пределы памяти. В отношении проверки двух пос- 
ледних условий имеются две возможности. Их мож- 
но трактовать как независимые ошибки и отслежи- 
вать количество элементов в списке, для чего при 
каждом занесении в стек проверять, что счетчик не 
превышает значение, переданное конструктору в 
качестве аргумента, и что пе^ѵ выполняется успешно. 
Вполне уместно занять позицию, при которой не 
требуется заранее знать максимальный размер сте- 
ка, и, игнорируя аргумент конструктора (см. упраж- 
нение 4.24), сообщать о том, что стек переполнен, 
только тогда, когда пе^ѵ завершается с ошибкой. 
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РИСУНОК 4.5 СТЕК МАГАЗИННОГО 
ТИПА НА БАЗЕ СВЯЗНОГО СПИСКА 

Стек представлен указателем 
Неай, который указывает на 
первый (последний вставленный) 
элемент. Чтобы вытолкнуть 
элемент из стека ( Юр), удаляется 
элемент в начале списка, 
устанавливая Неай равным 
указателю связи из этого 
элемента. Для заталкивания в стек 
нового элемента (Ъоііот), он 
присоединяется в начало списка 
путем установки его поля связи 
так, чтобы оно указывало на Неай, 
а указателя Неай — так, чтобы он 
указывал на новый элемент. 
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Программа 4.8 Реализация стека магазинного типа на базе связного списка 

В этой программе АТД реализуется с помощью связного списка. Представление 
данных для узлов связного списка организовано традиционным способом (см. главу 3) 
и включает конструктор для узлов, который заполняет каждый новый узел данным 
элементом и его связью. 

Ѣетріа-Ье <с1азз іеет> 
сіазз 5ТАСК 

{ 

ргіѵаѣе : 

з-ЬгисЬ посіе 

{ Нет Пет; посіе* пехѣ; 
посіе (Нет х, посіе* 1) 

{ Пет = х; пехѣ = Ъ; } 

} ; 

Ъуресіе^ посіе *1іпк; 

Ііпк Ьеасі; 
риЫіс : 

5ТАСК (іпЪ) 

{ Ьеасі = 0 ; } 

іп-Ь етр-ЬуО сопзЪ 

{ ге-Ьигп Ьеасі == 0 ; } 

ѵоісі ризЬСІ'Ьет х) 

{ Ьеасі а пеѵг посіе (х, Ьеасі) ; } 

I Ъет рор ( ) 

{ Нет ѵ = Ьеасі->і‘Ьет; Ііпк ѣ = Ьеасі->пехѣ; 
сіеІе-Ье Ьеасі; Ьеасі = Ь; ге'Ьигп ѵ; } 

} ; 


Программы 4.7 и 4.8 представляют две различные реализации одно и того же АТД. 
Можно заменять одну реализацию другой, не делая никаких изменений в клиентских 
программах, подобных тем, которые рассматривались в разделе 4.3. Они отличают- 
ся только производительностью. Реализация на базе массива использует объем памя- 
ти, необходимый для размещения максимального числа элементов, которые может 
вместить стек в процессе вычислений; реализация на базе списка использует объем 
памяти пропорционально количеству элементов, но при этом всегда расходует допол- 
нительную память для одной связи на каждый элемент, а также дополнительное вре- 
мя на распределение памяти при каждой операции затолкнуть и освобождение памя- 
ти при каждой операции вытолкнуть. Если требуется стек больших размеров, который 
обычно заполняется практически полностью, по-видимому, предпочтение стоит отдать 
реализации на базе массива. Если же размер стека варьируется в широких пределах 
и присутствуют другие структуры данных, которым требуется память, не используе- 
мая во время, когда в стеке находится несколько элементов, предпочтение следует 
отдать реализации на базе связного списка. 

По ходу изложения материала будет показано, что эти же самые соображения от- 
носительно использования оперативной памяти справедливы для многих реализаций 
АТД. Разработчики часто оказываются в ситуациях, когда приходится выбирать между 
возможностью быстрого доступа к любому элементу при необходимости заранее ука- 
зывать максимальное число требуемых элементов (в реализации на базе массивов) и 
гибким использованием памяти (пропорционально количеству элементов, находящих- 
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ся в стеке) при отсутствии быстрого доступа к любому элементу (в реализации на базе 
связных списков). 

Помимо этих основных соображений относительно использования памяти, обыч- 
но больше всего интересуют различия в производительности разных реализаций АТД, 
связанные со временем выполнения. В данном случае различия между двумя рас- 
смотренными реализациями незначительны. 

Лемма 4 Л Используя либо массивы , либо связные списки, для АТД стека магазинного 
типа можно реализовать операции втолкнуть и вытолкнуть, имеющие постоянное вре- 
мя выполнения. 

Этот факт является непосредственным следствием внимательного изучения про- 
грамм 4.7 и 4.8. 

То, что в реализациях на базе массива и связного списка элементы стека хранят- 
ся в разном порядке, для клиентских программ не имеет никакого значения. В реа- 
лизациях могут использоваться какие угодно структуры данных, лишь бы они созда- 
вали впечатление абстрактного стека магазинного типа. В обоих случаях реализации 
способны создавать впечатление эффективного абстрактного объекта, который мо- 
жет выполнять необходимые операции с помощью всего лишь нескольких машинных 
инструкций. Цель всей книги — отыскать структуры данных и эффективные реали- 
зации для других важных АТД. 

Реализация на базе связного списка создает впечатление стека, который может 
увеличиваться неограниченно. Однако в практических условиях такой стек невозмо- 
жен: рано или поздно, когда запрос на выделение еще некоторого объема памяти не 
сможет быть удовлетворен, пе\ѵ сгенерирует исключение. Можно также организовать 
стек на базе массива, который будет увеличиваться и уменьшаться динамически: ког- 
да стек заполняется наполовину, размер массива увеличивается в два раза, а когда 
стек становится наполовину пустым, размер массива уменьшается в два раза. Дета- 
ли реализации упомянутой стратегии мы оставляем в качестве упражнения в главе 14, 
где этот процесс подробно рассматривается для более сложных применений. 

Упражнения 

> 4.21 Определите содержимое элементов $[0], ... , $[4] после выполнения с помо- 
щью программы 4.7 операций, показанных на рис. 4.1. 

о 4.22 Предположим, что вы изменяете интерфейс стека магазинного типа, заменяя 
операцию проверить, пуст или стек операцией подсчитать , которая возвращает 
количество элементов, находящихся в данный момент в структуре данных. Реали- 
зуйте операцию подсчитать для представления на базе массива (программа 4.7) и 
представления на базе связного списка (программа 4.8). 

4.23 Измените реализацию стека магазинного типа на базе массива (программа 
4.7) так, чтобы она вызывала функцию-член еггог(), если клиентская программа 
пытается выполнить операцию вытолкнуть , когда стек пуст, или операцию затол- 
кнуть , когда стек переполнен. 

4.24 Измените реализацию стека магазинного типа на базе связного списка (про- 
грамма 4.8) таким образом, чтобы она вызывала функцию-член еггог(), если кли- 
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ентская программа пытается выполнить операцию вытолкнуть , когда стек пуст, 
или операцию затолкнутъ , когда отсутствует свободная память при вызове пе\ѵ. 

4.25 Измените реализацию стека магазинного типа на базе связного списка (про- 
грамма 4.8) так, чтобы для создания списка она использовала массив индексов (см. 
рис. 3.4). 

4.26 Напишите реализацию стека магазинного типа на базе связного списка, в ко- 
торой элементы списка хранятся начиная с первого занесенного элемента и завер- 
шая последним занесенным элементом. Потребуется использовать двухсвязный 
список., 

• 4.27 Разработайте АТД, который содержит два разных стека магазинного типа. 
Воспользуйтесь реализацией на базе массива. Один стек расположите в начале мас- 
сива, другой — в конце. (Если клиентская программа работает так, что один стек 
увеличивается, в то время как другой уменьшается, эта реализация будет занимать 
меньший объем памяти, нежели альтернативные варианты.) 

• 4.28 Реализуйте функцию вычисления инфиксных выражений, состоящих из це- 
лых чисел. Она должна включать программы 4.5 и 4.6, а также использовать АТД 
из упражнения 4.27. Примечание : потребуется рассмотреть случай, когда оба стека 
содержат элементы одного и того же типа. 

4.5 Создание нового АТД 

Разделы с 4.2 по 4.4 содержат пример полного кода программы на С++ для одной 
из наиболее важных абстракций: стека магазинного типа. В интерфейсе из раздела 4.2 
определены основные операции; клиентские программы из раздела 4.3 могут исполь- 
зовать эти операции независимо от их реализации, а вот реализация из раздела 4.4 
обеспечивает конкретное представление и программный код АТЭ. 

Создание нового АТД часто сводится к следующему процессу. Начав с разработ- 
ки клиентской программы, предназначенной для решения прикладной задачи, опре- 
деляются операции, которые считаются наиболее важными: какие операции хотелось 
бы выполнять над данными? Затем определяется интерфейс и записывается код про- 
граммы -клиента с целью проверки гипотезы о том, что использование АТД упростит 
реализацию клиентской программы. Затем выполняется анализ, можно ли достаточ- 
но эффективно реализовать операции в рамках АТД. Если нет, придется поискать 
источник неэффективности, а затем применить интерфейс, поместив в него опера- 
ции, более подходящие для эффективной реализации. Поскольку модификация вли- 
яет и на клиентскую программу, ее потребуется соответствующим образом изменить. 
Выполнив несколько модификаций интерфейса и клиентской программы, получаем 
работающую клиентскую программу и работающую реализацию; интерфейс "замора- 
живается" в таком состоянии, т.е. он больше не изменяется. С этого момента разра- 
ботка клиентских программ и реализаций выполняется раздельно: можно писать дру- 
гие клиентские программы, использующие тот же самый АТД (скажем, для целей 
дополнительного тестирования), можно записывать другие реализации, равно как и 
сравнивать производительность различных реализаций. 

В других ситуациях можно начать с определения АТД. Подобный подход может 
породить следующие вопросы: какие базовые операции над доступными данными 
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могут потребоваться клиентским программам? Какие операции можно реализовать 
эффективно? Завершив разработку реализации, можно проверить ее эффективность 
с помощью клиентских программ. Перед окончательным "замораживанием" интер- 
фейса, возможно, потребуется дополнительная модификация и тесты. 

В главе 1 подробно рассматривался пример, где размышления о том, какой уро- 
вень абстракции использовать, помогли отыскать эффективный алгоритм решения 
сложной задачи. Теперь посмотрим как обсуждаемый в настоящей главе обобщенный 
подход применяется для инкапсуляции абстрактных операций из главы 1. 

В программе 4.9 определен интерфейс, включающий две операции (в дополнение 
к операции создать (сотігисі)). Похоже, что эти операции описывают алгоритмы связ- 
ности, рассмотренные в главе 1, на высоком уровне абстракции. Какие бы базовые 
алгоритмы и структуры данных не лежали в основе, необходимо иметь возможность 
проверки связности двух узлов, а также описания, что конкретные два узла являют- 
ся связанными. 

Программа 4.9 Интерфейс АТД "Отношения эквивалентности" 

Интерфейс АТД построен так, чтобы было удобно записывать код, в точности 
соответствующий принятому решению рассматривать алгоритм связности в виде класса, 
поддерживающего три абстрактных операции: инициализировать (іпіііаііге) абстрактную 
структуру данных для отслеживания связей между заданным числом узлов; найти (Япф) % 
являются ли два узла связанными; и соединить (ипііе) два данных узла и считать их с 
этого момента связанными. 

сіазз ОТ 
{ 


// программный код, зависящий от реализации 
риЫіс : 

ОТ(іпЪ) ; 

іп-Ь €іп<і(іпЪ, іп-Ь) ; 
ѵоісі ипі'Ье (іпѣ, іп'Ь) ; 


Программа 4.10 — это клиентская программа, которая для решения задачи связ- 
ности использует АТД с интерфейсом, представленным в программе 4.9. Одно из 
преимуществ этого АТД состоит в относительной простоте понимания программы, 
поскольку она «аписана с использованием абстракций, позволяющих естественно 
представить процесс вычислений. 

Программа 4.11 является реализацией интерфейса ипіоп-Гіпб, который определен 
в программе 4.9. В этой реализации (см. раздел 1.3) применяется бор деревьев, в ос- 
нове которого лежат два массива, представляющие известную информацию о связях. 
В разных алгоритмах, рассмотренных в главе 1, используются различные реализации 
АТД, причем их можно тестировать независимо друг от друга, не изменяя клиентс- 
кую программу. 

Этот АТД приводит к созданию несколько менее эффективных программ, неже- 
ли программа связности из главы 1, поскольку он не обладает тем преимуществом 
упомянутой программы, что в ней каждой операции соединение (ипіоп) непосредствен- 
но предшествует операция поиск фпф. Дополнительные издержки подобного рода 
являются платой за переход к более абстрактному представлению. В данном случае 



Часть 2, Структуры данных 


существует множество способов устранения этого недостатка, например, за счет бо- 
лее сложной реализации интерфейса (см. упражнение 4.30). На практике пути быва- 
ют очень короткими (особенно, если применяется сжатие путей), так что в данном 
случае дополнительные издержки, по-видимому, окажутся незначительными. 

Программа 4.10 Клиентская программа для АТД "Отношения эквивалентности" 

АТД из программы 4.9 позволяет отделить алгоритм связности от реализации ипіоп-Ііпсі), 
тем самым делая его более доступным. 

#іпс1и<іе <іо8ѣгеат.Ь> 

#±пс1и<іе <8і:сі1іЬ.Іі> 

#іпс1исІе "ОТ.схх" 

іп-Ь таіп(іпѣ агдс, сЬаг *агдѵ[]) 

{ іпі: р, д, N = аѣоі (агдѵ[1] ) ; 

ЦР іп^о (И) ; 

ѵЫІе (сіп » р » д) 

( ! іпііо . ^іпсі (р , д ) ) 

{ 

іп^о . ипіѣе (р, д) ; 

сои-Ь « " " « р « ” " « д « епсіі ; 

} 

} 


Комбинация программ 4.10 и 4.11 с точки зрения функциональности эквивалент- 
на программе 1.3; однако, разбиение программы на две части является более эффек- 
тивным подходом, так как: 

■ позволяет отделять решение задачи высокого уровня (задачи связности) от ре- 
шения задачи низкого уровня (задачи ипіоп-ГіпсІ) и решать эти две задачи не- 
зависимо 

■ предоставляет естественный способ сравнения различных алгоритмов и струк- 
тур данных, применяемых при решении этой задачи 

■ определяет с помощью интерфейса способ проверки ожидаемой работы про- 
граммного обеспечения 

■ обеспечивает механизм, позволяющий совершенствовать представления (пере- 
ходить к новым структурам данных и новым алгоритмам) без каких-либо из- 
менений кода клиентских программ 

■ предоставляет абстракцию, которую можно использовать при построении дру- 
гих алгоритмов 

Сказанное выше справедливо для многих задач, с которыми приходится сталки- 
ваться при разработке компьютерных программ, так что эти базовые принципы по- 
строения абстрактных типов данных применяются исключительно широко. 

Программа 4.11 Реализация АТД "Отношения эквивалентности" 

Этот код взвешенного быстрого объединения из главы 1 является реализацией 

интерфейса из программы 4.9. В данной реализации код упакован в форму, удобную 

для его использования в других приложениях. Приватная перегруженная функция-член 

Гіпсі реализует обход дерева вплоть до его корня. 
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сіазз ШГ 
{ 


іп-Ь *ісі, *52; 
іп-Ь ^іпсЦіпЬ. х) 

{ ѵЬіІе (х != іё[х]) х = ісі[х] ; ге-Ьшгп х; } 
риЫіс : 

ЦР (іпЬ. И) 

{ 

і<і = пеѵ іпЬ[И] ; зг = пеѵ іпѣ[И] ; 
іог (іпЬ. і = 0; і < К; і++) 

{ ісі[і] = і; 32 [і] = 1; } 

} 

іп-Ь і:іпсі(іп-Ь р, іпЬ д) 

{ ге-Ьигп (^іпсі(р) = ^іпё(д)); } 

ѵоісі ипі-Ье(іп-Ь р, іпЬ д) 

{ іп-Ь і = ^іпсі(р) , } = ^іпсі(д) ; 

(і == і) ге-Ьигп; 

(52 [і] < 32[э]) 

{ ісі [і] = і; 82 [}] += 32 [і] ; } 

еізе { і<і[;)] = і; зг[і] += 52[}]; } 

} 


В коде программы 4.11 смешаны интерфейс и реализация; поэтому он не допус- 
кает отдельную компиляцию клиентских программ и реализаций. Для того чтобы раз- 
ные реализации могли использовать один и тот же интерфейс, программу можно, как 
в разделе 3.1, разделить на три файла следующим образом. 

Создать заголовочный файл с именем, скажем, ІІР.Ь, который будет содержать 
объявление класса, представление данных и объявления функций, но не определения 
функций. В рассматриваемом примере этот файл будет содержать код программы 4.9, 
в который также включается представление данных (приватные объявления из про- 
граммы 4.11). Затем необходимо сохранить определения функций в отдельном фай- 
ле .схх, который будет также содержать директиву іпсіініе для файла ІІР.Ь (как это 
имеет место в любой клиентской программе). При таком порядке вещей появляется 
возможность раздельной компиляции клиентских программ и реализаций. В самом 
деле, определение любой функции-члена класса можно сохранить в отдельном фай- 
ле, если только функция-член объявляется в классе, а в определении функции перед 
ее именем помещается имя класса и знак Например, определение функции Япй в 
нашем примере следовало бы записать так: 

іп-Ь ЦГ: : ^іп<і(іп-Ь р, іпЬ д) 

{ геЬигп (^іші(р) == ^іпсі(д)); } 

К сожалению, при раздельной компиляции разные компиляторы налагают различ- 
ные требования на реализацию шаблонов. Проблема заключается в том, что компи- 
лятор не может создать код для функции-члена, не зная типа параметра шаблона, 
который недоступен, так как определен в главной программе. Определение функ- 
ций-членов внутри объявлений классов позволяет избегать подобного рода головоло- 
мок, связанных с компиляцией. 
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Однако использование трех файлов, по-прежнему, не является идеальным, по- 
скольку представление данных, которое в действительности является частью реали- 
зации, хранится в одном файле с интерфейсом. С помощью ключевого слова ргіѵаіе 
можно предотвратить доступ к нему со стороны клиентских программ, но если про- 
вести в реализации изменения, которые, в свою очередь, потребуют изменений в 
представлении данных, придется изменить файл .Ь и перекомпилировать все клиен- 
тские программы. Во многих сценариях разработки программного обеспечения мо- 
жет отсутствовать информация о программах-клиентах, так что это может оказать- 
ся весьма затруднительным. В некоторых сценариях такая организация может иметь 
смысл. В случае очень большого и сложного АТД можно сначала остановиться на 
представлении данных и интерфейсе, а уже потом усадить команду программистов за 
разработку различных частей реализации. В этом случае общедоступная часть интер- 
фейса послужит соглашением между программистами и клиентами, а приватная часть 
— соглашением сугубо между программистами. К тому же, когда необходимо найти 
самый лучший способ решения некоторой проблемы при условии, что должна ис- 
пользоваться некая конкретная структура данных, эта стратегия зачастую обеспечи- 
вает именно то, что и требуется. Таким образом, можно повысить производитель- 
ность, изменяя лишь незначительную часть огромной системы. 

В языке С++ имеется механизм, предназначенный специально для того, чтобы 
предоставить возможность писать программы с хорошо определенным интерфейсом, 
позволяющим полностью отделять клиентские программы от реализаций. Этот меха- 
низм базируется на понятии производных (дегіѵеф классов , посредством которых можно 
дополнять или переопределять некоторые члены существующего класса. Включение 
ключевого слова ѵігіиаі в объявление функции-члена означает, что эта функция мо- 
жет быть переопределена в производном классе; добавление последовательности 
символов = 0 в конце объявления функции-члена указывает на то, что данная фун- 
кция является чистой виртуальной (риге ѵігіиаі) функцией , которая должна быть пере- 
определена в любом производном классе. Производные классы обеспечивают удоб- 
ный способ создания программ на основе работ других программистов и являются 
важным компонентом объектно-ориентированных программных систем. 

Абстрактный (аШгасі) класс — это класс, все члены которого являются чистыми 
виртуальными функциями. В любом классе, порожденном от абстрактного класса, 
должны быть определены все функции-члены и любые необходимые приватные дан- 
ные-члены; таким образом, по нашей терминологии абстрактный класс является ин- 
терфейсом, а любой класс, порожденный от него, является реализацией. Программы- 
клиенты могут использовать интерфейс, а система С++ может обеспечить соблюдение 
соглашений между клиентами и реализациями, даже когда клиенты и реализации 
функций компилируются раздельно. Например, в программе 4.12 показан абстракт- 
ный класс иГ для отношений эквивалентности; если изменить первую строку програм- 
мы 4.11 следующим образом: 

с1а88 ЦГ : риЫіс сіазз и€ 

то она будет указывать на то, что класс ІІР является производным от класса иГ и 
поэтому в нем определены (как минимум) все функции-члены класса иГ — т.е. класс 
ІІР является реализацией интерфейса иГ. 
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Программа 4.12 Абстрактный класс для АТД отношения эквивалетности 

Приведенный ниже код фломирует интерфейс АТД отношения эквивалентности, 
который обеспечивает полное разделение клиентов и реализаций (см. текст). 

сіазз 

{ 

риЫіс: 

ѵігіиаі и^іп-Ь) = 0; 

ѵігѣиаі іп! ^іп<і(іп , Ь / іігЬ) = 0; 

ѵігіиаі ѵоісі ипі , Ье(іп‘Ь, іпЪ) = 0; 

} ; 


К сожалению, использование абстрактных классов влечет за собой значительный 
дополнительный расход машинного времени при выполнении программы, поскольку 
каждый вызов виртуальной функции требует обращения к таблице указателей на 
функции-члены. Более того, компиляторы обладают намного меньшими возможно- 
стями в отношении оптимизации кода для абстрактных классов. Так как рассматри- 
ваемые в книге алгоритмы и структуры данных часто находятся в частях системы, 
критичных к производительности, возможно, упомянутая цена за гибкость, предос- 
тавляемую абстрактными классами, окажется слишком большой, чтобы ее платить. 

Есть еще один способ действий — применить стратегию четырех файлов, при ко- 
торой приватные части хранятся не в интерфейсе, но в отдельном файле. Например, 
в класс из программы 4.9 можно было бы добавить в начале строки 

ргіѵаѣе : 

#іпс1исіе "ШГргіѵаѣе . Ь" 

после чего поместить строки 

іпѣ *і<і, *52; 

іпѣ ^іпсі(іп‘Ь) ; 

в файл Шргіѵаіе.іі. Эта стратегия позволяет аккуратно выделить четыре компонен- 
та (клиентскую программу, реализацию, представление данных и интерфейс) и обес- 
печивает максимальную гибкость в экспериментировании со структурами данных и 
алгоритмами. 

Гибкость, которую можно достичь с помощью производных классов и стратегии 
"четырех файлов", сохраняет возможность, хоть и непреднамеренного, тем не менее, 
нарушения соглашений между программами-клиентами и реализациями в отношении 
того, каким должен быть АТД. Все эти механизмы гарантируют, что клиентские про- 
граммы и реализации будут корректно компоноваться; однако они также зависят 
друг от друга и функционируют таким образом, что в общем случае нельзя описать это 
формально. Например, предположим, что какой-нибудь неосведомленный (или нео- 
пытный) программист нашел наш алгоритм взвешенного быстрого поиска трудным 
для понимания и решил заменить его алгоритмом быстрого объединения (или еще 
хуже, реализацией, которая даже не дает правильного решения). Мы всегда стреми- 
лись к тому, чтобы такие изменения вносились легко, но в данном случае это может 
совершенно испортить программу-клиент в важном приложении, которое полагает- 
ся на эту реализацию, обладающую хорошей производительностью для крупных за- 






Часть 2. Структуры данных 


дач. Практика программирования полна подобных примеров, и от них очень трудно 
защититься. 

Однако, такого рода рассуждения уводят нас к свойствам языков программирова- 
ния, компиляторов, компоновщиков, сред выполнения программ, что весьма далеко 
от алгоритмов. Поэтому, чаще всего будем придерживаться простого, общепринято- 
го разделения программы на два файла, где АТД реализуется в виде классов С++, 
общедоступные функции-члены составляют интерфейс, а реализация объединяется с 
интерфейсом в отдельном файле, который включается в программы-клиенты и ком- 
пилируется каждый раз, когда компилируются клиентские программы. Первопричи- 
на связана с тем, что реализация в виде класса — это удобное и компактное средство 
представления структур данных и алгоритмов. Если для какого-либо отдельного при- 
ложения потребуется большая гибкость, которая может быть обеспечена одним из 
только что упомянутых способов, можно соответствующим образом изменить струк- 
туры классов. 

Упражнения 

4.29 Модифицируйте программу 4.11 так, чтобы в ней использовалось сжатие пути 
делением пополам. 

4.30 Устраните упоминаемую в тексте неэффективность программы, добавив в 
программу 4.9 операцию, которая объединяет операции ипіоп и /іпсі и соответству- 
ющим образом изменив программы 4.11 и 4.10. 

о 4.31 Модифицируйте интерфейс (программа 4.9) и реализацию (программа 4.11) 
для отношений эквивалентности так, чтобы в них присутствовала функция, воз- 
вращающая количество узлов, связанных с данным. 

4.32 Модифицируйте программу 4.11 так, чтобы для представления структуры дан- 
ных в ней вместо параллельных массивов использовался массив структур. 

о 4.33 Используя стек целых чисел (без шаблонов), напишите программу из трех 
файлов, вычисляющую значение постфиксного выражения. Обеспечьте, чтобы кли- 
ентскую программу (аналог программы 4.5) можно было компилировать отдель- 
но от реализации стека (аналог программы 4.7). 

о 4.34 Модифицируйте решение предыдущего упражнения — отделите представле- 
ние данных от реализаций функций-членов (сделайте программу из четырех фай- 
лов). Протестируйте полученный результат, подставляя реализацию стека на базе 
связного списка (аналог программы 4.8) без перекомпиляции программы-клиен- 
та. 

• 4.35 Создайте полную реализацию АТД "Отношения эквивалентности" на базе аб- 
страктного класса с виртуальными функциями и сравните производительность по- 
лученной программы и программы 4.11 на крупных задачах связности (в стиле таб- 
лицы 1.1). 
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4.6 Очереди РІРО и обобщенные очереди 

Очередь с дисциплиной ПРО ( Гігзі-Іп , Рігзі-Ош — Первым пришел , первым ушел) явля- 
ется еще одним фундаментальным АТД, который подобен стеку магазинного типа, 
но подчиняется противоположному правилу удаления элемента в операции удалить . 
Из очереди удаляется не последний вставленный элемент, а наоборот — элемент, ко- 
торый был вставлен в очередь раньше всех остальных. 

Пожалуй, ящик для входящей корреспонденции нашего занятого профессора дол- 
жен бы был функционировать как очередь РІРО, поскольку дисциплина "первым при- 
шел, первым ушел" интуитивно кажется справедливой для обработки входящей кор- 
респонденции. Однако профессор не всегда вовремя отвечал на телефонные звонки 
и даже позволял себе опаздывать на лекции! В стеке какая-нибудь служебная запис- 
ка может застрять на дне, но срочные случаи обрабатываться сразу же после появле- 
ния. В очереди РІРО документы обрабатываются по порядку, и каждый должен ожи- 
дать своей очереди. 

Программа 4.13 Интерфейс АТД "Очередь РІРО” 

Этот интерфейс идентичен интерфейсу стека магазинного типа из программы 4.4, за 
исключением имен функций. Эти два АТД отличаются только спецификациями, что 
совершенно не отражается на коде интерфейса. 

Іетріаѣе <с1азз 1ѣет> 
сіазз О ЦЕЦЕ 
{ 

ргіѵаіе : 

// программный код, зависящий от реализации 
риЫіс: 

фЦЕЦЕ (іпѣ) ; 
іпі ешрЪу ( ) ; 
ѵоісі риЪ(ІЪет) ; 

Нет деѣ () ; 

); 


Очереди РІРО с завидной частотой встречаются в повседневной жизни. Когда мы 
стоим в цепочке людей, чтобы посмотреть кинокартину или купить продукты, нас 
обслуживают в порядке РІРО. Аналогично этому в вычислительных системах очере- 
ди РІРО часто используются для обслуживания задач, которые необходимо выполнять 
по принципу: первым пришел, первым обслужился. Другим примером, иллюстриру- 
ющим различие между стеками и очередями РІРО, может служить отношение к ско- 
ропортящимся продуктам в бакалейной лавке. Если бакалейщик выкладывает новые 
товары на переднюю часть полки и покупатели берут товары также с передней час- 
ти полки, получается стек. Бакалейщик может столкнуться с проблемой, поскольку 
товар на задней части полки может стоять очень долго и попросту испортиться. Вык- 
ладывая новые товары на заднюю часть полки, бакалейщик гарантирует, что время, 
в течение которого товар находится на полке, ограничивается временем, необходи- 
мым покупателям для приобретения всех товаров, выставляемых на полку. Этот же 
базовый принцип применяется во множестве подобных ситуаций. 
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Определение 4.3 Очередь ПРО — это АТД, который со- 
держит две базовых операции: вставить (риі — занести) 
новый элемент и удалитъ (§еі — извлечь) элемент , кото- 
рый был вставлен раньше всех остальных . 

Программа 4.13 является интерфейсом для АТД "Очередь 
РІРО". Этот интерфейс отличается от интерфейса стека, 
рассмотренного в разделе 4.2, только спецификациями — 
для компилятора два интерфейса совершенно идентичны! 
Это подчеркивает тот факт, что сама абстракция, которую 
программисты обычно не определяют формально, являет- 
ся существенным компонентом абстрактного типа данных. 
Для больших приложений, которые могут содержать десят- 
ки АТД, проблема их точного определения является крити- 
чески важной. В настоящей книге мы работаем с АТД, 
представляющими важнейшие понятия, которые определя- 
ются в тексте, но не при помощи формальных языков (раз- 
ве что через конкретные реализации). Чтобы понять при- 
роду абстрактных типов данных, потребуется рассмотреть 
примеры их использования и конкретные реализации. 

На рис. 4.6 показано, как очередь РІРО изменяется в 
ходе ряда последовательных операций извлечь и занести. 
Каждая операция извлечь уменьшает размер очереди на 1, а 
каждая операция занести увеличивает размер очереди на 1. 
Элементы очереди перечислены на рисунке в порядке их 
занесения в очередь, поэтому ясно, что первый элемент 
списка — это тот элемент, который будет возвращаться опе- 
рацией извлечь. Опять-таки, в реализации можно организо- 
вать элементы любым требуемым способом при условии 
сохранения иллюзии того, что элементы организованы 
именно в соответствие с дисциплиной РІРО. 

В случае реализации АТД "Очередь РІРО" с помощью 
связного списка, элементы списка хранятся в следующем 
порядке: от первого вставленного до последнего вставлен- 
ного элемента (см. рис. 4.6). Такой порядок является обрат- 
ным по отношению к порядку, который применяется в 
реализации стека, причем он позволяет создавать эффек- 
тивные реализации операций над очередями. Как показано 
на рис. 4.7 и в программе 4.14 (реализации), поддерживают- 
ся два указателя на этот список: один на начало списка 
(чтобы можно было извлечь первый элемент) и второй на 
его конец (для занесения в очередь нового элемента). 
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РИСУНОК 4.6 ПРИМЕР 
ОЧЕРЕДИ РІРО 

На рисунке показан 
результат выполнения 
последовательности 
операций . Операции 
представлены в левом 
столбце (порядок 
выполнения — сверху вниз); 
здесь буква обозначает 
операцию рШ (занести), а 
звездочка — операцию &е( 
(извлечь). Каждая строка 
содержит операцию , 
букву, возвращаемую 
операцией §е( и 
содержимое очереди от 
первого занесенного 
элемента до последнего в 
направлении слева направо. 
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Программа 4.14 Реализация очереди РІРО на базе 


связного списка 


Различие между очередью ПРО и стеком 
магазинного типа (программа 4.8) состоит в том, 
что новые элементы вставляются в конец списка, а 
не в его начало. Следовательно, в этом классе 
хранится указатель іаіі на последний узел списка, 
и, таким образом, функция ри* может добавлять в 
список новый узел, связывая его с узлом, на 
который ссылается указатель іаіі, а затем обновляя 
указатель іаіі так, чтобы он указывал уже на новый 
узел. Функции ОІІЕІІЕ, де* и етріу идентичны 
аналогичным функциям в реализации стека 
магазинного типа на базе связного списка из 
программы 4.8. Поскольку новые узлы всегда 
вставляются в конец списка, конструктор узлов 
может устанавливать в пиІІ поле указателя каждого 
нового узла и получать только один аргумент. 


■Ьетріаіе Ссіазз Ііет> 
сіазз дЦЕИЕ 

{ 


з'Ьгис'Ь посіе 

{ Нет Нет; посіе* пехѣ; 
посіе (Пет х) 

{ Нет = х; пехі: = 0; } 

} ; 

•Ьуресіеі: посіе *1іпк; 

Ііпк Иеасі, •Ьаіі; 
риЫіс : 

©ЦЕЦЕ (±пѣ) 

{ Иеасі = 0 ; } 

іп*Ь етрЪуО сопзі. 

{ геЪигп Иеасі == 0; } 

ѵоісі риі(Нет х) 

{ Ііпк Ь = •Ьаіі; 

Ъаіі = пеѵг посіе (х); 

Н (Неасі == 0) 


еізе ѣ->пехі: = Ъаіі ; 

} 

Нет деѣ() 

{ Нет ѵ = Ьеасі->і'Ьет; 

Ііпк Ь = Ъеа<3->пех'Ь; 
сіеІеЪе Ьеасі; Ьеасі = Ь; геѣигп ѵ; 

} 

} ; 



РИСУНОК 4.7 ОЧЕРЕДЬ НА БАЗЕ 
СВЯЗНОГО СПИСКА 


В представлении очереди в виде связного 
списка новые элементы вставляются в 
конец списка , поэтому элементы связного 
списка от первого вставленного элемента 
до последнего располагаются от начала к 
конц)> очереди. Очередь представляется 
двумя указателями: ИеасІ (начало) и іаіі 
(конец), которые указывают, 
соответственно , на первый и последний 
элемент. Лія извлечения элемента из 
очереди удаляется элемент в начале 
очереди так же, как это делалось в 
случае стека (см. рис. 4.5). Чтобы 
занести в очередь новый элемент, поле 
связи узла, на который ссылается 
указатель іаіі, устанавливается так, 
чтобы оно указывало на новый элемент 
(середина рисунка), а затем обновляется 
указатель іаіі (нижняя часть рисунка) 


Для реализации очереди РІРО можно также воспользоваться массивом, однако при 
этом необходимо соблюдать осторожность и обеспечить, чтобы время выполнения как 
операции занести , так и операции извлечь было постоянным. Это условие означает 
невозможность пересылки элементов очереди внутри массива, как это можно было 
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бы предположить при буквальной интерпретации рис. 
4.6. Следовательно, как и в реализации на базе связно- 
го списка, потребуется поддерживать два индекса в 
массиве: индекс начала очереди и индекс конца очере- 
ди. Содержимым очереди считаются элементы, индек- 
сы которых находятся в рамках упомянутых двух ин- 
дексов. Чтобы извлечь элемент, он удаляется его из 
начала (Ьеад) очереди, после чего индекс Неагі увеличи- 
вается на единицу; чтобы занести элемент, он добавля- 
ется в конец (ІаіІ) очереди, а индекс іаіі увеличивается 
на единицу. Как иллюстрирует рис. 4.8, последователь- 
ность операций занести и извлечь приводит к тому, что 
все выглядит так, будто очередь движется по массиву. 
Она устроена так* что при достижении конца массива 
осуществляется переход на его начало. С деталями ре- 
ализации рассмотренного процесса можно ознакомить- 
ся в коде программы 4.15. 

Программа 4.15 Реализация очереди РІРО на базе массива 

К содержимому очереди относятся все элементы массива, 
расположенные между индексами Ьеасі и іаіі; при этом 
учитывается переход с конца на начало массива. Если 
индексы Ьеасі и іаіі равны, очередь считается пустой, однако 
если они стали равными в результате выполнения операции 
риі, очередь считается полной. Как обычно, проверка на 
такие ошибочные ситуации не выполняется, но размер 
массива делается на 1 больше максимального количества 
элементов очереди, ожидаемое программой-клиентом. При 
необходимости программу можно расширить, включив в нее 
подобного рода проверки. 

ЪетрІаЪе <с1азз І-Ьет> 

сіазз О ЦЕЦЕ 

{ 


Ііет *<%; іпЪ К, Ьеасі, Ъаіі; 
риЫіс : 

дЦЕЦЕ(іпѣ тахИ) 

{ д = пеѵ 1 І'Ьет [тахЛ+1 ] ; 

N = тахК+1 ; Ьеасі = И; Ьаіі = 0; } 

іпЬ етрЪуО сопзЬ 
{ геЬигп Ьеасі % N »« Ьаіі; } 
ѵоісі риЬСіѣвт іЬет) 

{ д[Ьаі1++] = і-Ьет; Ьаіі ~ Ьаіі % И; } 
ІЬехп деЬО 

{ Ьеасі = Ьеасі % И; геЬигп д[Ьеасі++] ; } 

} ; 
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РИСУНОК 4.8 ПРИМЕР ОЧЕРЕДИ 
ПРО, РЕАЛИЗОВАННОЙ НА 
БАЗЕ МАССИВА 

Данная последовательность 
операций отображает 
манипуляции с данными , 
лежащие в основе абстрактного 
представления очереди из рис. 

4. 6. Эти манипуляции 
соответствуют случаю , когда 
очередь реализуется за счет 
запоминания ее элементов в 
массиве , сохранения индексов 
начала и конца очереди и 
обеспечения перехода индексов 
на начало массива, когда они 
достигают его конца. В данном 
примере индекс Шіі переходит 
на начало массива, когда 
вставляется второй символ Т, а 
индекс Неай — когда удаляется 
второй символ 5. 
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Лемма 4.2 Для АТД " Очередь ПРО " имеется возможность реализовать операции §еІ и 

риі с постоянным временем выполнения , используя либо массивы, либо связные списки. 

Этот факт становится ясным, стоит только внимательно посмотреть на код про- 
грамм 4.14 и 4.15. 

Те же соображения относительно использования оперативной памяти, которые 
были изложены в разделе 4.4, применимы и к очередям РІРО. Представление на базе 
массива требует резервирования оперативной памяти с объемом, достаточным для 
запоминания максимально ожидаемого количества элементов очереди. В случае же 
представления на базе связного списка оперативная память используется пропорци- 
онально числу элементов в структуре данных; это происходит за счет дополнитель- 
ного расхода памяти на связи (между элементами) и дополнительного расхода вре- 
мени на распределение и освобождение памяти для каждой операции. 

Хотя по причине фундаментальной взаимосвязи между стеками и рекурсивными 
программами (см. главу 5), со стеками приходится сталкиваться чаще, чем с очередя- 
ми РІРО, будут также встречаться и алгоритмы, для которых очереди являются есте- 
ственными базовыми структурами данных. Как уже отмечалось, очереди и стеки ис- 
пользуются в вычислительных приложениях чаще всего для того, чтобы отложить 
выполнение того или иного процесса. Хотя многие приложения, использующие оче- 
редь отложенных задач, работают корректно вне зависимости от того, какие прави- 
ла удаления элементов задействуются в операциях удалить , общее время выполнения 
программы или использования ресурсов, может зависеть от применяемой дисципли- 
ны. Когда в подобных приложениях встречается большое количество операций вста- 
вить или удалить , выполняемых над структурами данных с большим числом элемен- 
тов, различия в производительности обретают первостепенную важность. Поэтому в 
настоящей книге столь существенное внимание уделяется таким АТД. Если бы про- 
изводительность программ не интересовала, можно было бы создать один единствен- 
ный АДТ с операциями вставить и удалить ; однако производительность является пре- 
дельно важным показателем, поэтому каждое правило, в сущности, соответствует 
своему АТД. Чтобы оценить эффективность отдельного АТД, потребуется учитывать 
издержки (т. е. расход машинного времени) двух видов: издержки, обусловленные 
реализацией, которые зависят от алгоритмов и структур данных, выбранных для ре- 
ализации, и издержки, обусловленные отдельным правилом выполнения операции, в 
смысле его влияния на производительность клиентской программы. В заключение 
данного раздела описываются несколько таких АТД, которые будут рассматриваться 
подробно в следующих главах. 

И стеки магазинного типа, и очереди РІРО являются частными случаями более 
общего АТД: обобщенной (%епегаІііесІ) очереди. Частные случаи обобщенных очередей 
различаются только правилами удаления элементов. Для стеков это правило будет 
таким: "удалить элемент, который был вставлен последним"; для очередей РІРО пра- 
вило гласит: "удалить элемент, который был вставлен первым"; существует и множе- 
ство других вариантов. 

Простым, тем не менее, мощным вариантом является неупорядоченная очередь 
(гапйот ^иеие), подчиняющаяся следующему правилу: "удалить случайный элемент"; и 
программа-клиент может ожидать, что она с одинаковой вероятностью получит лю- 
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бой из элементов очереди. Используя представление на базе массива (см. упр. 4.48), 
для неупорядоченной очереди можно реализовать операции с постоянным временем 
выполнения. Представление на базе массива требует (так же, как для стеков и оче- 
редей РІРО), чтобы оперативная память была распределена заранее. Однако в дан- 
ном случае альтернативное представление на базе связного списка менее привлека- 
тельно, чем в случае стеков и очередей РІРО, поскольку эффективная реализация как 
операции вставки, так и операции удаления, является очень трудной задачей (см. упр. 
4.49). Чтобы с высокой степенью вероятности избежать сценариев с наихудшей про- 
изводительностью, неупорядоченные очереди можно использовать в качестве базиса 
для рандомизированных алгоритмов (см. раздел 2.7). 

При описании стеков и очередей РІРО элементы идентифицировались по време- 
ни вставки в очередь. В качестве альтернативы эти абстрактные понятия можно опи- 
сывать в терминах последовательного перечня упорядоченных элементов и базовых 
операций вставки и удаления элементов в начале и конце списка. Если элементы 
вставляются в конец списка и удаляются также с конца, получается стек (точно как 
в реализации на базе массива); если элементы вставляются в начало и удаляются в 
начале, также получается стек (точно как в реализации на базе связного списка); если 
же элементы вставляются в конец, а удаляются с начала, то получается очередь РІРО 
(как в реализации на базе связного списка). В конечном итоге, если элементы встав- 
ляются в начало, а удаляются с конца, также получается очередь РІРО (этот вариант 
не соответствует ни одной из реализаций — для его точной реализации можно было 
бы изменить представление на базе массива, а вот представление на базе связного 
списка для этой цели не подойдет из-за необходимости поддерживать указатель на 
конец очереди в случае удалении элементов в конце очереди). Развивая дальше эту 
точку зрения, приходим к абстрактному типу данных дек (доиЫе-епсІесі диеие, двухсто- 
ронняя очередь ), в котором и вставки, и удаления разрешаются с обеих сторон. Его 
реализацию мы оставляем в качестве упражнений (см. упр. 4.43—4.47); при этом не- 
обходимо отметить, что реализация на базе массива является простым расширением 
программы 4.15, а для реализации на базе связного списка потребуется двухсвязный 
список, иначе удалять элементы дека можно будет только с одной стороны. 

В главе 9 рассматриваются очереди с приоритетами , в которых элементы имеют 
ключи, а правило удаления элементов выглядит как "удалять элемент с самым ма- 
леньким ключом". АТД "Очередь с приоритетами" полезен во множестве приложений, 
и задача нахождения эффективных реализаций для этого АТД в течение многих лет 
была целью исследований в компьютерных науках. Важным фактором в исследова- 
ниях были идентификация и использование АТД в приложениях: подставляя новый 
алгоритм вместо старой реализации в крупном, сложном приложении и сравнивая 
результаты, можно сразу же определить, является ли новый алгоритм правильным. 
Более того, отмечая, как от подстановки новой реализации изменяется общее время 
выполнения приложения, можно сразу же определить, является ли новый алгоритм 
более эффективным, нежели старый. Структуры данных и алгоритмы, которые рас- 
сматриваются в главе 9 в плане решения данной проблемы, столь же интересны, 
сколь оригинальны и эффективны. 
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В главах с 12 по 16 исследуются символьные таблицы (зутЬоІ іаЫез). Это обобщен- 
ные очереди, в которых элементы имеют ключи, а правило удаления элементов зву- 
чит так: "удалить элемент, ключ которого равен данному, если таковой элемент су- 
ществует". Этот АТД, пожалуй, самый важный из изучаемых, и можно будет 
ознакомиться с десятками его реализаций. 

Каждый из этих АТД дает начало ряду родственных, но разных АТД, которые по- 
явились в результате внимательного изучения клиентских программ и производитель- 
ности различных реализаций. В разделах 4.7 и 4.8 обсуждаются многочисленные при- 
меры изменений в спецификации обобщенных очередей, ведущих к еще более 
оригинальным АТД, которые будут подробно рассматриваться далее в книге. 

Упражнения 

> 4.36 Найдите содержимое элементов ч[0], ... , ^[4] после выполнения программой 
4.15 операций, показанных на рис. 4.6. Считайте, что тахМ, как и на рис. 4.8, рав- 
но 10. 

> 4.37 В последовательности 

ЕА5 * У * дЦЕ * * * 5Т * * * ІО * N * * * 

буква означает операцию рш , а звездочка — операцию %ег. Найдите последователь- 
ность значений, возвращаемых операциями когда эта последовательность опе- 
раций выполняется над первоначально пустой очередью Р1РО. 

4.38 Модифицируйте приведенную в тексте реализацию очереди Р1РО на базе мас- 
сива (программа 4.15) так, чтобы в ней вызывалась функция еггог(), если клиент 
пытается выполнить операцию $ег, когда очередь пуста, или операцию рШ , когда 
очередь переполнена. 

4.39 Модифицируйте приведенную в тексте реализацию очереди РІРО на базе 
связного списка (программа 4.14) так, чтобы в ней вызывалась функция еггог(), 
если клиент пытается выполнить операцию уел, когда очередь пуста, или если при 
выполнении рш отсутствует доступная память в пе^ѵ. 

> 4.40 В последовательности 

ЕАз + У + ОЧЕ ** + зѣ+* + І0*п + + * 

буква верхнего регистра означает операцию рш в начале дека, буква нижнего ре- 
гистра — операцию риі в конце дека, знак плюс означает операцию уеі в начале, 
а звездочка — операцию уеі в конце. Найдите последовательность значений, воз- 
вращаемых операциями уеі, когда эта последовательность операций выполняется 
над первоначально пустым деком. 

О 4.41 Используя правила, принятые в упр. 4.40, найдите, каким образом в после- 
довательность Еа$У необходимо вставить знаки плюс и звездочки, чтобы операции 
уеі возвращали следующую последовательность символов: (і) Е§аУ, (іі) Уа§Е, (ііі) 
аУ$Е, (іѵ) а§УЕ; либо же в каждом случае докажите, что такая последовательность 
невозможна. 


• 4.42 Имея две последовательности, составьте алгоритм, позволяющий определить, 
возможно ли в первую последовательность вставить знаки плюс и звездочки так, 
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чтобы, интерпретируя ее как последовательность операций над деком в смысле 
упр. 4.41, получить вторую последовательность. 

> 4.43 Запишите интерфейс для АТД "Дек". 

4.44 Для интерфейса дека (упр. 4.43) запишите реализацию, в которой в качестве 
базовой структуры данных используется массив. 

4.45 Для интерфейса дека (упр.4.43) запишите реализацию, в которой в качестве 
базовой структуры данных используется двухсвязный список. 

4.46 Для приведенного в тексте интерфейса очереди РІРО (программа 4.13) запи- 
шите реализацию, в которой в качестве базовой структуры данных используется 
циклический список. 

4.47 Напишите программу-клиент, которая проверяет полученный АТД "Дек" 
(упр. 4.43), считывая с командной строки в качестве первого аргумента строку 
команд подобную приведенной в упр. 4.40, после чего выполняет указанные опе- 
рации. В интерфейс и реализации добавьте функцию-член сіитр и распечатывай- 
те содержимое дека после каждой операции, как это сделано на рис. 4.6. 

о 4.48 Создайте АТД "Неупорядоченная очередь" (напишите интерфейс и реализа- 
цию), в котором в качестве базовой структуры данных используется массив. Обес- 
печьте для каждой операции постоянное время выполнения. 

•• 4.49 Создайте АТД "Неупорядоченная очередь" (напишите интерфейс и реализа- 
цию), в котором в качестве базовой структуры данных используется связный спи- 
сок. Напишите как можно более эффективные реализации операций іпзегГ и гетоѵе 
и проанализируйте связанные с ними издержки для наихудшего случая их выпол- 
нения. 

> 4.50 Напишите программу-клиент, которая выбирает для лотереи числа следую- 
щим образом: заносит в неупорядоченную очередь числа от 1 до 99, а затем уда- 
ляет пять из них и выводит результат. 

4.51 Напишите программу-клиент, которая считывает с командной строки в ка- 
честве первого аргумента целое число А, а затем распечатывает результат разда- 
чи в покере карт на N игроков. Для этого она должна заносить в неупорядочен- 
ную очередь N элементов (см. упр. 4.7) и затем выдавать результат выбора из этой 
очереди пяти карт за один раз. 

• 4.52 Напишите программу, которая решает задачу связности. Для этого она дол- 
жна вставлять все пары в неупорядоченную очередь, а затем с помощью алгорит- 
ма взвешенного быстрого поиска (программа 1.3) извлекает их из очереди. 

4.7 Повторяющиеся и индексные элементы 

Во многих приложениях обрабатываемые абстрактные элементы являются уни- 
кальными. Это качество подводит нас к мысли пересмотреть представления о том, как 
должны функционировать стеки, очереди РІРО и другие обобщенные АТД. В частно- 
сти, в данном разделе рассматриваются такие изменения спецификаций стеков, оче- 
редей РІРО и обобщенных очередей, которые запрещают в этих структурах данных 
присутствие повторяющихся элементов. 


Глава 4. Абстрактные типы данных 


Например, компании, поддерживающей список рассылки по адресам покупателей, 
может потребоваться расширить этот список информацией из других списков, собран- 
ных с различных источников. Это выполняется с помощью соответствующих опера- 
ций іпзегі. При этом, по-видимому, не требуется заносить информацию о покупате- 
лях, адреса которых уже присутствуют в списке. Далее можно будет увидеть, что тот 
же принцип применим в самых разнообразных приложениях. В качестве еще одно- 
го примера рассмотрим задачу маршрутизации сообщений в сложной сети передачи 
данных. Можно попытаться передать сообщение одновременно по нескольким мар- 


шрутам, однако каждому отдельно взятому узлу сети не- 
обходима только одна копия этого сообщения в свои 
внутренние структуры данных. 

Один из подходов к решению данной проблемы — 
это возложение на программы-клиенты задачи по обес- 
печению того, что в АТД не будут присутствовать повто- 
ряющиеся элементы. Предположительно, программы- 
клиенты могли бы выполнять эту задачу, используя 
какой-нибудь другой АТД. Но поскольку цель создания 
любого АТД связана с обеспечением четких решений 
прикладных задач с помощью клиентских программ, 
можно прийти к мнению, что обнаружение повторяю- 
щихся элементов и разрешение таких ситуаций — это 
часть задачи, относящаяся к компетенции АТД. 

Использование стратегии запрета присутствия повто- 
ряющихся элементов сводится к изменению абстракции : 
интерфейс, имена операций и прочее для такого АТД 
будут такими же, как и для соответствующего АТД, в ко- 
тором данный принцип не используется, но функциони- 
рование реализации изменяется фундаментальным обра- 
зом. Вообще говоря, при модификации описания 
какого-нибудь АТД получается совершенно новый АТД 
— АТД, обладающий совершенно другими свойствами. 
Эта ситуация демонстрирует также ненадежную приро- 
ду спецификации АТД: обеспечить, чтобы клиентские 
программы и реализации придерживались специфика- 
ции интерфейса, достаточно трудно, однако обеспе- 
чить применение такого высокоуровневого принципа, 
как данный — совсем другое дело. Тем не менее, мы за- 
интересованы в подобных алгоритмах, поскольку про- 
граммы-клиенты применяют такие свойства для решения 
задач новыми способами, а реализации могут использо- 
вать преимущества, предоставляемые подобными огра- 
ничениями, для обеспечения более эффективного реше- 
ния задач. 

На рис. 4.9 проиллюстрирована работа модифициро- 
ванного АТД "Стек без повторяющихся элементов" для 
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РИСУНОК 4.9 СТЕК 
МАГАЗИННОГО ТИПА БЕЗ 
ПОВТОРЯЮЩИХСЯ 
ЭЛЕМЕНТОВ 

Данная последовательность 
операций аналогична 
операциям на рис. 4. /, однако 
она выполняется над стеком , 
в котором запрещены 
повторяющиеся объекты. 
Серыми квадратами 
отмечены случаи , когда стек 
остается неизменным , так 
как в стеке уже 
присутствует элемент , 
идентичный тому , который 
должен быть занесен. 
Количество элементов в 
стеке ограничено числом 
возможных различных 
(отличающихся) элементов. 
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случая, показанного на рис. 4.1; на рис. 4.10 приведен результат аналогичных изме- 
нений для очереди Р1РО. 

Вообще говоря, решение относительно повторяющихся элементов приходится 


принимать тогда, когда программа-клиент делает запрос на занесение элемента, уже 
имеющегося в структуре данных. Как следует поступить в такой ситуации? Продол- 
жать работу так, как будто запроса вообще не было? Или удалитъ старый элемент и 
занести новый? Это решение влияет на порядок, в котором, в конечном счете, бу- 
дут обрабатываться элементы в АТД наподобие стеков 
и очередей Р1РО (см. рис. 4.11); упомянутое различие 
очень существенно для клиентских программ. Напри- 
мер, компания, использующая подобный АТД для і р і 

списка рассылки, могла бы предпочесть занесение но- ” р ! в з 

вого элемента на место старого (вероятно, предпола- * р і в з 

гая, что он содержит более свежую информацию о кли- ] | 1 * ® т 

енте); а коммутационный центр, использующий такой і в з т і 

АТД, мог бы предпочесть проигнорировать новый эле- ^ з т I ііі М 

мент (вероятно, он уже предпринял соответствующие * з т і N 

шаги и отправил сообщение). Более того, выбор того * т | ^ 

или иного принципа влияет на реализации: как прави- і і м р 

ло, принцип "удалить старый элемент" более труден в в * N р в 

реализации, нежели принцип "игнорировать новый з N р в з 

элемент", поскольку связан с модификацией структуры ] м рй$ 
данных. * в 


Для реализации обобщенных очередей без повторя- 
ющихся элементов необходимо иметь абстрактную опе- 
рацию, проверяющую равенство элементов (как это 
рассматривалось в разделе 4.1). Помимо такой опера- 
ции необходимо иметь возможность определять, суще- 
ствует ли уже в структуре данных новый вставляемый 
элемент. Этот общий случай предполагает необходи- 
мость реализации АТД "Таблица символов", поэтому он 
рассматривается в контексте реализаций, в главах с 12 
по 15. 

Имеется важный частный случай, для которого су- 
ществует простое решение; его иллюстрирует програм- 
ма 4.16 для АТД "Стек магазинного типа". В этой реа- 
лизации предполагается, что элементы являются 
целыми числами в диапазоне от 0 до М — 1. Далее, что- 
бы определять, имеется ли уже в стеке некоторый эле- 
мент, в реализации используется второй массив, индек- 
сами которого являются сами элементы стека. При 
вставке в стек элемента / выполняется также установ- 
ка в 1 і-ого элемента второго массива, а при удалении 
из стека элемента і і-ый элемент второго массива уста- 
навливается в 0. Во всем остальном для вставки и уда- 
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РИСУНОК 4.10 ОЧЕРЕДЬ ПРО 
БЕЗ ПОВТОРЯЮЩИХСЯ 
ЭЛЕМЕНТОВ, 

ФУНКЦИОНИРУЮЩАЯ ПО 
ПРИНЦИПУ "ИГНОРИРОВАТЬ 
НОВЫЙ ЭЛЕМЕНТ" 

Данная последовательность 
операций аналогична операциям , 
показанным на рис. 4. 6, однако 
она выполняется над очередью, 
в которой запрещены 
повторяющиеся объекты. 
Серыми квадратами отмечены 
случаи, когда очередь остается 
неизменной, так как в очереди 
уже присутствует элемент, 
идентичный тому, который 
должен быть занесен. 
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лени я элементов применяется тот же код с одной дополнительной проверкой: перед 
вставкой элемента выполняется проверка, нет ли в стеке такого элемента. Если есть, 
операция занесения элемента игнорируется. Это решение не зависит от используемого 
представления стека — на базе массива, связного списка или чего-нибудь еще. Для 


реализации принципа "удалять старый элемент" требуется больший объем работы (см. 
упр. 4.57). 


Суммируя изложенное выше, можно сказать, что один из способов реализации 
стека без повторяющихся элементов, функционирующе- 


го по принципу "игнорировать новый элемент", состоит 
в поддержке двух структур данных. Первая, как и преж- 
де, содержит элементы стека и позволяет отслеживать 
порядок, в котором были вставлены элементы стека. 
Вторая структура является массивом, позволяющим от- 
слеживать, какие элементы находятся в стеке; индекса- 
ми этого массива являются элементы стека. Такое ис- 
пользование массива рассматривается как частный 
случай реализации таблицы символов, которая обсужда- 
ется в разделе 12.2. Когда известно, что элементы пред- 
ставляют собой целые числа в диапазоне от 0 до М — 1 , 
эту же методику можно применять по отношению к лю- 
бой обобщенной очереди. 

Программа 4.16 Стек индексных элементов, в котором 
запрещены повторяющиеся элементы 

В этой реализации стека магазинного типа предполагается, 
что класс Иет имеет тип іпі, который возвращает целые 
числа в диапазоне от 0 до тахЫ-1, так что он может 
поддерживать массив 4, где каждому элементу стека 
соответствует отличное от нуля значение. Этот массив дает 
возможность функции ривИ быстро проверять, не находится 
ли уже в стеке ее аргумент, и если так, то не предпринимать 
никаких действий. В каждом элементе массива 1 используется 
только один бит, поэтому при желании можно сэкономить 
оперативную память, используя вместо целых чисел символы 
или биты (см. упр. 12.12). 
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РИСУНОК 4.11 ОЧЕРЕДЬ НЕО 
БЕЗ ПОВТОРЯЮЩИХСЯ 
ЭЛЕМЕНТОВ, 

ФУНКЦИОНИРУЮЩАЯ ПО 
ПРИНЦИПУ "УДАЛЯТЬ 
СТАРЫЙ ЭЛЕМЕНТ" 


Данная последовательность 
операций аналогична 


операциям , показанным на рис. 
4. 10. Однако здесь 


8ТАСК ( іпѣ тахЯ) 

{ 

з = пе%г ІѣвтСтахІ*] ; N5= 0; 

Ь = пѳѵ ІЪѳт [шахЛ] ; 

^ог (іп'Ь і = 0; і < тахЛ; і++) ѣ[і] = 0; 

> 

іпѣ етр'ЬуО сопзѣ 
{ ге-Ьигп N == 0 ; } 


используется другой, более 
сложный для реализации 
принцип, в соответствии с 
которым новый элемент всегда 
добавляется в конец очереди 
Если же в очереди 
присутствует точно такой 
же элемент , он уделяется. 
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ѵоісі ри 5 Ь(Ііеш іѣехп) 

{ 

(і[і-Ьет] == 1) ге^игп; 
з[И++] = ііѳт; ѣ[іѣет] = 1; 

} 

Лет рор() 

{ Ъ[з[--Н]] = 0; геѣигп з [И] ; } 


Этот частный случай встречается довольно часто. Его наиболее важный пример — 
когда элементы структуры данных сами являются индексами массива, поэтому такие 
элементы называются индексными элементами (іпсіех ііетз). Обычно имеется набор из 
М объектов, хранимых в каком-то другом массиве, и как часть более сложного алго- 
ритма, необходимо передавать этот набор объектов через структуру обобщенной оче- 
реди. Объекты заносятся в очередь по индексам и обрабатываются при удалении, при- 
чем каждый объект должен обрабатываться только один раз. Очередь без 
повторяющихся элементов, в которой используются индексы массива, позволяет на- 
прямую достичь этой цели. 

Каждый из этих вариантов (запрещать или нет повторяющиеся элементы; исполь- 
зовать или нет новый элемент ведет к новому АТД. Различия могут показаться не- 
значительными, тем не менее, они заметно влияют на динамическую характеристи- 
ку АТД (как это видится со стороны клиентских программ), а также на выбор 
алгоритма и структуры данных для реализации различных операций. Посему нет иной 
альтернативы, кроме как трактовать все эти АТД как разные. Более того, приходится 
учитывать и другие варианты: например, может появиться желание изменить интер- 
фейс с целью информирования клиентской программы о том, что она пытается вста- 
вить дубликат уже имеющегося элемента, либо же предоставить программе-клиенту 
возможность выбора: игнорировать новый элемент или удалять старый. 

Когда мы неформально используем такой термин, как магазинный стек , очередь 
ПРО , дек у очередь по приоритету или таблица символов , мы потенциально говорим о 
семействе абстрактных типов данных, где каждый тип имеет свой набор операций, 
набор соглашений о значении этих операций, причем для эффективной поддержки 
этих операций каждый тип требует своих, в некоторых случаях довольно сложных, 
реализаций. 

Упражнения 

> 4.53 Для стека без повторяющихся элементов, работающего по принципу "удалять 
старый элемент", изобразите рисунок, аналогичный рис. 4.9. 

4.54 Модифицируйте стандартную реализацию стека на базе массива из раздела 4.4 
(программа 4.7) таким образом, чтобы в ней были запрещены повторяющиеся эле- 
менты по принципу "игнорировать новый элемент". Используйте метод "грубой 
силы", заключающийся в сканировании всего стека. 

4.55 Модифицируйте стандартную реализацию стека на базе массива из раздела 4.4 
(программа 4.7) таким образом, чтобы в ней были запрещены повторяющиеся эле- 
менты по принципу "удалять старый элемент". Используйте метод "грубой силы", 
заключающийся в сканировании всего стека и перемещении его элементов. 




Глава 4. Абстрактные типы данных 


• 4.56 Выполните упражнения 4.54 и 4.55 для реализации стека на базе связного 
списка из раздела 4.4 (программа 4.8). 

о 4.57 Разработайте реализацию стека магазинного типа, в которой повторяющие- 
ся элементы запрещены по принципу "удалять старый элемент". Элементами стека 
являются целые числа в диапазоне от 0 до М — 1, а операции ризИ и рор должны 
иметь постоянное время выполнения. Подсказка : возьмите представление стека на 
базе двухсвязного списка и воспользуйтесь указателями на узлы этого списка, а не 
массивом индексных значений. 

4.58 Выполните упражнения 4.54 и 4.55 для очереди РІРО. 

4.59 Выполните упражнение 4.56 для очереди РІРО. 

4.60 Выполните упражнение 4.57 для очереди РІРО. 

4.61 Выполните упражнения 4.54 и 4.55 для рандомизированной очереди. 

4.62 Напишите клиентскую программу для АТД, полученного в упражнении 4.61, 
которая использует рандомизированную очередь без повторяющихся элементов. 

4.8 АТД первого класса 

Интерфейсы и реализации АТД "Стек" и "Очередь РІРО" в разделах с 4.2 по 4.7 
достигают важной цели: сокрытие от клиентских программ структур данных, исполь- 
зуемых в реализациях. Эти АТД весьма полезны и будут служить в качестве основы 
для множества других реализаций, рассматриваемых в книге. 

Однако, когда такие типы данных используются в программах таким же образом, 
как и встроенные типы данных, например, іпі или Яоаі, программиста могут подсте- 
регать ловушки. В данном разделе мы рассмотрим, как конструировать АТД, с кото- 
рыми программы-клиенты могут работать так же, как и со встроенными типами дан- 
ных, без нарушения принципа сокрытия деталей реализации от клиентских программ. 

Определение 4.4 Тип данных первого класса — это тип данных , который может ис- 
пользоваться в программах таким же образом, как и встроенные типы данных. 

Например, типы данных первого класса можно использовать как переменные (т.е. 
объявлять переменные этих типов и присваивать им значения). Такие типы данных 
можно также использовать в аргументах и возвращаемых значениях функций. В этом 
определении, равно как и в других, относящихся к типам данных, нельзя достигнуть 
точности, не углубившись в высокие материи, касаемые семантики операций. Как 
будет показано, одно дело утверждать, что можно записывать а = Ь, где а и Ь явля- 
ются объектами определяемого пользователем класса, и совсем другое дело — точно 
определить, что означает эта операция. 

В идеале можно представлять, что все типы данных имеют некоторый универсаль- 
ный набор хорошо определенных операций; в действительности же каждый тип дан- 
ных характеризуется своим собственным набором операций. Это различие между ти- 
пами данных само по себе препятствует точному определению типа данных первого 
класса, поскольку оно предполагает необходимость дать определения для каждой опе- 
рации, заданной для встроенных типов данных, а это делается редко. Чаще всего важ- 
ными являются лишь несколько критических операций и вполне достаточно приме- 
нять только их для собственных типов данных так же, как и для встроенных типов. 
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Во многих языках программирования создание типов данных первого класса яв- 
ляется делом трудным или даже невозможным; в языке С++ необходимые базовые 
инструменты — это концепция класса и возможность перегрузки операций. Действи- 
тельно, в языке С++ легко определять классы, которые являются типами данных пер- 
вого класса; более того, имеется четкий способ модернизации тех классов, которые 
таковыми не являются. 

Метод, который применяется в языке С++ для реализации типов данных перво- 
го класса, применим к любому классу: в частности, он применим к обобщенным оче- 
редям и, таким образом, обеспечивает возможность создания программ, которые 
оперируют со стеками и очередями Р1РО во многом так же, как и с другими типами 
данных С++. При изучении алгоритмов эта возможность достаточно важна, посколь- 
ку она предоставляет естественный способ выражения высокоуровневых операций, 
относящихся к таким АТД. Например, вполне уместно говорить об операциях соеди- 
нения двух очередей — т.е. создании из них одной очереди. Далее будут рассматривать- 
ся алгоритмы, которые реализуют такие операции для АТД "Очередь по приоритету" 
(глава 9) и "Таблица символов" (глава 12). 

Если доступ к типу данных первого класса осуществляется только через интерфейс, 
то это действительно АТД первого класса (см. определение 4.1). Обеспечение возмож- 
ности работать с экземплярами АТД, в основном, так же, как со встроенными типа- 
ми данных, например, іп* или Яоаі, — важная цель многих языков программирова- 
ния высокого уровня, поскольку это позволяет написать любую программу так, чтобы 
она манипулировала центральными объектами приложения. В таком случае множе- 
ство программистов смогут одновременно работать над большими системами, используя 
точно определенный набор абстрактных операций, что, в свою очередь, позволяет реа- 
лизовывать абстрактные операции самыми разными способами без какого-либо измене- 
ния кода приложения (например, для новых компьютеров или сред выполнения. 

Программа 4.17 Драйвер комплексных чисел (корни из единицы) 

Эта клиентская программа выполняет вычисления над комплексными числами с 
использованием АТД, который позволяет проводить вычисления непосредственно с 
интересующей нас абстракцией. В этой связи объявляются переменные типа Сотріех 
и задействуются в арифметических выражениях с перегруженными операциями. 
Данная программа проверяет реализацию АТД, вычисляя корни из единицы в 
различных степенях. При помощи соответствующего определения перегруженной 
операции << (см. упр. 4.70) производится вывод таблицы, показанной на рис. 4.12. 

#іпс1исІе сіозЪгеат. Ъ> 

#іпс1исіе <зЫ1іЪ . Ъ> 

#іпс1исіе СтаЫі . Ъ> 

#іпс1исіе " СОМРЬЕХ . схх " 

іпѣ таіп(іпЪ агдс, сЪаг *агдѵ[]) 

{ іп-Ь N = а'Ьоі (агдѵ[1] ) ; 

соиѣ « N « " сотріех гоо-Ьз оі ипі-Ьу" « епсіі; 

Ног (іпѣ к = 0; к < К; к++) 

{ НІоаЬ «іеѣа = 2 . 0*3 . 14159*к/Ы; 

Сотріех ѣ (соз (Ыіеѣа) , зіп ('ЬЪе'Ьа) ) , х = Ъ; 
соиЬ « к « " : " « ѣ « " " ; 

Ног (іпѣ з = 0; з < N-1; з++) х *= Ь; 
соиі: « х « епсіі ; 

} 

} 
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Для начала в качестве примера рассмотрим АТД первого класса, соответствующий 
абстракции " комплексное число". Наша цель — получить возможность записывать про- 
граммы, подобные программе 4.17, которая выполняет алгебраические действия над 
комплексными числами, используя операции, определенные в АТД. Данная програм- 
ма объявляет и инициализирует комплексные числа, а также использует операции *= 
и «. Можно было бы воспользоваться и другими операциями, но в качестве примера 
достаточно рассмотреть только эти две. На практике используется класс сошріех из 
библиотеки С++, в котором имеется обширный набор перегруженных операций, 
включая даже тригонометрические функции. 

В программе 4.17 принимаются во внимание несколько математических свойств 
комплексных чисел. Стоит немного отклониться от основной темы и кратко рассмот- 
реть эти свойства. В некотором смысле это даже и не отступление, поскольку само 
по себе исследование связи между комплексными числами как математической абст- 
ракцией и их представлением в компьютерной программе достаточно интересно. 

Число / = ^[. іу называется мнимым числом. Хотя л/ІГУ как вещественное число не 
имеет смысла, мы называем его / и выполняем над і алгебраические операции, заме- 
няя і 2 на —1 всякий раз, когда его встречаем. Комплексное число состоит из двух ча- 
стей: вещественной и мнимой — комплексные числа можно записывать в виде а + Ы, 
где а и Ь — вещественные числа. Для умножения комплексных чисел применяются 
обычные алгебраические правила, при этом всякий раз / 2 заменяется на -1. Напри- 
мер: 

(а + Ы) ( с + сП) - ас + Ьсі + а сіі + Ьйі 2 = (ас — Ьй) + (ай + Ьс)і. 

При умножении комплексных чисел вещественные или мнимые части могут сокра- 
щаться (принимать значения 0), например: 

(1 - 0(1 — /) = 1 — / — / -+- / 2 = - 2 /, 

(1 + О 4 = 4/ 2 = -4, 

(1 + О 8 = 16. 

Разделив обе части последнего уравнения на 16 = (л/2) 8 , мы находим, что 



Вообще говоря, имеется много комплексных чисел, которые при возведении в сте- 
пень дают 1. Они называются комплексными корнями из единицы. Действительно, для 
каждого А имеется ровно А комплексных чисел і, для которых справедливо ^ = 1. 
Легко можно показать, что этим свойством обладают числа 

( 2 к к ^ . . ( 2 пк 

С08І И* I 81П 

I* / I* 

для к = 0, 1, ... , N—1 (см. упр. 4.68). Например, если в этой формуле взять к — Іи 
N = 8, получим корень восьмой степени из единицы, который мы только что нашли. 

Программа 4.17 вычисляет все корни А- ой степени из единицы для любого дан- 
ного N и затем возводит их в А-ую степень, используя операцию *=, определенную 
в данном АТД. Выходные данные программы показаны на рис. 4.12. При этом ожи- 
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дается, что каждое из этих чисел, возведенное в УѴ-ую степень, дает один и тот же 
результат — 1 или 1 + О/. Полученные мнимые части не равны строго нулю из-за ог- 
раниченной точности вычислений. Интерес к этой программе объясняется тем, что 
она использует класс Сошріех точно так же, как встроенный тип данных. Далее бу- 
дет подробно показано, почему это возможно. 

Даже в этом простом примере важно, чтобы тип данных был абстрактным, по- 
скольку имеется еще одно стандартное представление, которым можно было бы вос- 
пользоваться — полярные координаты (см. упр. 4.67). Программа 4.18 — это интер- 
фейс, который может использоваться такими клиентами, как программа 4.17; а 
программа 4.19 — это реализация, в которой используется стандартное представле- 
ние данных (одно число типа ЯоаГ для вещественной части и другое — для мнимой). 


Программа 4.18 Интерфейс АТД первого класса для комплексных чисел 


Этот интерфейс для комплексных чисел позволяет реализациям создавать объекты типа 
Сотріех (инициализированные двумя значениями типа Яоаі), обеспечивает доступ к 
вещественной и мнимой частям и использование операции *=. Хотя это и не задано 
явно, стандартные системные механизмы, действующие для всех классов, позволяют 
использовать объекты класса Сотріех в операторах присваивания, а также в 
аргументах и возвращаемых значениях функций. 

сіазз Сотріех 
{ 


// программный код, 

// зависящий от реализации 
риЫіс : 

Сотріех (ГІоаЬ, Іііоа-Ь) ; 

^ІоаЬ. Ке() сопз-Ь; 

^ІоаЬ. Іт() сопз-Ь ; 

Сотр1ех& орега-Ьог*= (Сотріехі) ; 

} ; 


Когда в программе 4.17 мы полагаем х = і, где 
х и і являются объектами класса Сотріех, система 
распределяет память для нового объекта и копирует 
в новый объект значения, относящиеся к объекту і. 
Если использовать объект класса Сотріех как аргу- 
мент или возвращаемое значение функции, про- 
цесс будет таким же. Кроме того, когда объект вы- 
ходит за пределы области видимости, система 
освобождает связанную с ним память. Например, в 
программе 4.17 система освобождает память, свя- 
занную с объектами I и х класса Сотріех, после 
цикла Гог так же, как и память, связанную с пере- 
менной г типа Яоаі. Коротко говоря, класс 
Сотріех используется подобно встроенным типам 
данных, т.е. он относится к типам данных первого 
класса. 
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РИСУНОК 4.12 КОМПЛЕКСНЫЕ 
КОРНИ ИЗ ЕДИНИЦЫ 

Эта таблица содержит выходные 
данные программы 4. 1 7 , когда она 
вызывается с параметрами а.оШ 8, 
а реализация перегруженной 
операции « выполняет 
соответствующее форматирование 
выходных данных (см. упр. 4. 70). 
Восемь комплексных корней из 
единицы равны: ±1 ,±і и 

л/2 л/2 . 

± ± I 

2 2 

( два левых столбца). При возведении 
в восьмую степень все эти восемь 
чисел дают в результате 1 + 0 / (два 
левых столбца). 
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Программа 4.19 АТД первого класса для комплексных чисел 

Этот код реализует АТД, определенный в программе 4.18. Для представления 
вещественной и мнимой частей комплексного числа используются данные типа ИоаТ 
Это тип данных первого класса, так как в представлении данных отсутствуют указатели. 
Когда объект класса Сотріех применяется либо в операторе присваивания, либо в 
аргументе функции, либо как ее значение возврата, система делает его копию, 
размещая в памяти новый объект и копируя данные в точности как в случае 
встроенных типов данных. 

Перегруженная операция << в текущей реализации выходные данные не форматирует 
(см. упр. 4.70). 

#іпс1исіе <іозѣгеаіп.Ь> 
сіавз Сотріех 

{ 

ргіѵаіѳ : 

±1оаЬ ге, іт; 
риЫіс: 

Сотріех Іо аЪ х # ±1оа.Ъ у) 

{ ге = х ; іт = у; } 

±1оа.Ь Ке ( ) сопзѣ 
{ геіигп ге ; } 

ііоаі Іт() сопзѣ 
{ геіигп іт; } 

Сотріех & орега!ог*= (сопзѣ Сотріѳхб гЬз) 

{ ііоаі 1 = Ке ( ) ; 

ге = Ке () *гЬ8 .Ке () - Іт() *гЬз . Іт() ; 

іт = Ъ*гЬ8.Іт() + Іт() *гЬз .Ке () ; 
геѣигп *ЫіІ8; 

} 

} ; 

озігеат& орегаіог« (озѣгеатб Ь, сопз'Ь Сотр1ех& с) 

{ Ь « с . Ке ( ) « " " « с . Іт ( ) ; гѳѣигп ; } 


Действительно, в языке С++ любой класс, обладающий свойством, что ни один из 
его данных-членов не является указателем, относится к типам данных первого класса. 
При копировании объекта копируется каждый его член; когда объекту присваивает- 
ся значение какого-нибудь иного объекта, то каждый его член перезаписывается; 
когда объект выходит за пределы области видимости, занимаемая им память освобож- 
дается. В системе существуют стандартные механизмы функционирования в каждой 
из упомянутых ситуаций: для выполнения необходимых функций в каждом классе 
имеются используемые по умолчанию конструктор копирования , операция присваивания 
и деструктор. 

Однако, когда некоторые данные-члены являются указателями, эффект от выпол- 
нения функций, используемых по умолчанию, окажется совершенно другим. В опе- 
рации присваивания конструктор копирования, используемый по умолчанию, дела- 
ет копию указателей, но действительно ли это то, что нам требуется? Это важный 
вопрос семантики копирования , который необходимо задавать себе при проектирова- 
нии любого АТД. Или, если говорить более широко, вопрос управления памятью яв- 
ляется решающим, когда при разработке программного обеспечения используются 
АТД. Далее приводится пример, который поможет осветить эти вопросы более деталь- 


но. 
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Программа 4.20 является примером клиентской программы, которая оперирует с 
очередями РІРО как с типами данных первого класса. Она моделирует процесс по- 
ступления и обслуживания клиентов в совокупности М очередей. На рис. 4.13 пока- 
зан пример выходных данных этой программы. Интерес к этой программе объясня- 


ется желанием проиллюстрировать, как механизм 
типов данных первого класса позволяет работать с 
таким высокоуровневым объектом, как очередь — 
можно также представить себе написание подобных 
программ для проверки различных методов организа- 
ции очереди по обслуживанию клиентов и т.п. 

Предположим, что используется рассмотренная 
ранее реализация очереди на базе связного списка из 
программы 4.14. Когда встречается запись р = ч, где р 
и ц являются объектами класса (^ЕЛШЕ, система рас- 
пределяет память для нового объекта и копирует в 
новый объект значения, относящиеся к объекту ц. Но 
это указатели Неагі и іаіі — сам связный список не ко- 
пируется. Если впоследствии связный список, относя- 
щийся к объекту р, изменяется, тем самым изменяется 
и связный список, относящийся к объекту ц. Безуслов- 
но, в программе 4.20 результат должен быть не таким. 
Опять же, если использовать объект класса (^ІІЕІІЕ 
как аргумент функции, процесс будет выглядеть так 
же. В случае встроенных типов данных мы рассчиты- 
ваем на то, что внутри функции будет свой собствен- 
ный объект, который можно использовать по своему 
усмотрению. Следствием этих ожиданий будет то, что 
в случае структуры данных с указателями потребует- 
ся делать копию. Однако система не знает, как это 
сделать — именно мы должны предоставить необхо- 
димый код. То же самое справедливо и для возвраща- 
емых значений функций. 

Программа 4.20 Клиентская программа, моделирующая 
очередь 

Данная клиентская программа моделирует ситуацию, при 
которой клиенты, ожидающие обслуживания, случайным 
образом помещаются в одну из М очередей обслужива- 
ния, затем, опять-таки случайным образом, выбирается 
очередь (возможно, та же) и, если она не пуста, выпол- 
няется обслуживание (клиент из очереди удаляется). Каж- 
дый раз после выполнения перечисленных операций 
выводится номер добавленного клиента, номер обслужен- 
ного клиента и содержимое очередей. 


75 іп 74 оггЬ 

0: 58 59 60 67 68 73 
1 : 

2: 64 66 72 
3: 75 

76 іп 

0: 58 59 60 67 68 73 
1 : 

2: 64 66 72 
3: 75 76 

77 іп 5Д оиЪ 

0: 59 60 67 68 73 
1: 77 

2: 64 66 72 
3: 75 76 

78 іп 77 ои* 

0: 59 60 67 68 73 
1: 78 

2: 64 66 72 
3: 75 76 

79 іп 78 оиЪ 

0; 59 60 67 68 73 
1: 79 

2: 64 66 72 
3: 75 76 

РИСУНОК 4.13 МОДЕЛИРОВАНИЕ 
НЕУПОРЯДОЧЕННОЙ ОЧЕРЕДИ 

Данный листинг представляет 

заключительную часть выходных 

* 

данных программы 4.20 для 
случая , когда в командной строке 
вводится аргумент 80. Он 
отображает содержимое 
очередей после указанных 
операций, которые заключаются 
в следующем: случайным образом 
выбирается очередь и в нее 
заносится следующий элемент; 
затем еще раз выбирается 
очередь (также случайно) и, если 


она не пуста, из нее извлекается 
элемент. 
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Здесь неявно предполагается, что класс ОІІЕІІЕ принадлежит в типу данных первого 
класса. Эта программа не будет корректно функционировать с реализациями, 
предоставленными в программах 4.14 и 4.15, по причине неправильной семантики 
копирования во внутреннем цикле *ог. 

Реализация АТД "Очередь" в программе 4.22 имеет конструктор копирования, который 
исправляет этот дефект. Во внутреннем цикле Іог эта реализация каждый раз делает 
соответствующую копию для объекта ^ и полагается на то, уто ее деструктор позволит 
системе освободить память, занятую копиями. 

#іпс1исіе <±озЪгеаш. Ь> 

#іпс1исіе <з-Ьсі1іЪ.Ь> 

#іпс1исіе ” ОЦЕЦЕ . схх " 

зіаііс сопзі: іп-Ь М = 4; 

іп*Ь таіп(іпі. агдс, сЬаг *агдѵ[]) 

{ іп-Ь N = аЪоі (агдѵ[1] ) ; 

0иЕЦЕ<іп1:> фіеиез [М] ; 

^ог (іпі. і = 0; і < К; і++, сои! « епсіі) 

{ іп-Ь іп = гапсі() % М, оиі: = гапсі() % М; 
фіеиез [іп] .риѣ(і) ; 
соиі: « і « " іп И ; 

( ! фіеиез [оиѣ] . етрѣу () ) 
соиі. « фіеиез [оиѣ] . деѣ () « " оиѣ"; 

соиѣ « епсіі; 

^ог (іп-Ь к = 0; к < М; к++, соиі: « епсіі) 

{ фиЕЦЕ<іпе> ^ = фіеиез [к]; 
соиѣ « к « " : " ; 

ѵЬіІе ( ! ч . етрЪу ( ) ) 

соиѣ « д.де-Ь() « " 

} 

} 

} 


Еще хуже обстоят дела, когда объект класса (^ІІЕІІЕ выходит за пределы видимо- 
сти: система освобождает память, относящуюся к указателям, но не всю память, зани- 
маемую собственно связным списком. Действительно, как только указатели прекра- 
щают свое существование, исчезает возможность доступа к данной области памяти. 
Вот вам пример утечки памяти (тетогу Іеак) — серьезной проблемы, всегда требую- 
щей особого внимания во время написании программы, которая имеет дело с распре- 
делением памяти. 

В языке С++ существуют специальные механизмы, упрощающие создание клас- 
сов, имеющих корректную семантику копирования и предотвращающих утечку памя- 
ти. В частности, в классы следует включать такие функции-члены: 

■ Конструктор копирования — для того чтобы создавать новый объект, который 
является копией данного объекта. 

■ Перегруженную операцию присваивания — для того чтобы объект мог присутство- 
вать с левой стороны оператора присваивания. 

■ Деструктор — для того чтобы освобождать память, выделенную под объект во 
время его создании. 

Когда системе необходимо выполнить указанные операции, она использует эти 
функции-члены. Если они не включены в класс, система обращаает к стандартным 
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функциям. Они работают так, как это описано для класса Сошріех, однако ведут к 
неверной семантике копирования и утечке памяти, если какие-нибудь данные-чле- 
ны являются указателями. Программа 4.21 — суть интерфейс очереди РІРО, в кото- 
рый включены три перечисленных функции. Подобно конструкторам, они имеют от- 
личительные сигнатуры, в которые входит имя класса. 

Программа 4.21 Интерфейс АТД первого класса "Очередь" 

Чтобы определяемый пользователем класс, данные-члены которого могут содержать 
указатели, больше походил на встроенный тип данных, в его интерфейс необходимо 
включить конструктор копирования, перегруженную операцию присваивания и 
деструктор, как это сделано в данном расширении простого интерфейса очереди ПРО 
из программы 4.13. 

ѣетріаѣе <с1азз Іѣет> 
сіазз О ЦЕЦЕ 

{ 

ргіѵаЪа : 

// ІтрІетепЪаЪіоп-сіерепсіеп'Ь сосіе 
риЫіс: 

ОЦЕЦЕ(іпѣ) ; 

фЦЕЦЕ (сопзѣ фЦЕЦЕ&) ; 

фЦЕЦЕ& орегаѣог= (сопвЪ ОЦЕЦЕ&) ; 

-ОЦЕЦЕ ( ) ; 

іпѣ етрѣуО сопзѣ; 
ѵоісі ри^(І^вт) ; 

Іѣет двѣ () ; 

> ; 


Когда при создании объекту присваивается начальное значение либо объект пере- 
дается как параметр или возвращается из функции, система автоматически вызыва- 
ет конструктор копирования (ЗІІЕІІЕ(соп§і (21ІЕІІЕ&). Операция присваивания 
01ІЕІІЕ& орегаіог=(соп8І 01ІЕІІЕ&) вызывается в случае применения операции =, 
дабы присвоить значение одной очереди другой. Деструктор ~(21ІЕІІЕ() вызывается 
в том случае, если необходимо освободить память, связанную с какой-либо очередью. 
Если в программе присутствует объявление без установки начального значения, на- 
подобие (21ІЕІІЕ<іпІ> ч;, то для создания объекта ч система использует конструктор 
(211Е11Е(). Если объект инициализируется с помощью такого объявления, как 
<21ІЕІІЕ<іпі> ч = р (или эквивалентной формы (ЗІІЕІІЕ<іпі> ч(р)), система исполь- 
зует конструктор копирования (21ІЕІІЕ(соп§і С?1)ЕІІЕ&). Эта функция должна созда- 
вать новую копию объекта р, а не просто еще один указатель на него. Как обычно 
для ссылочных параметров, ключевое слово соп§і выражает намерение не изменять 
объект р, но использовать его только для доступа к хранящейся в нем информации. 

Программа 4.22 представляет собой реализацию конструктора копирования, пере- 
груженной операции присваивания и деструктора для реализации очереди на базе 
связного списка из программы 4.14. Деструктор проходит по всей очереди и с помо- 
щью сіеіеіе освобождает память, распределенную под каждый узел. Если клиентская 
программа присваивает значения некоторого объекта самому себе, то в операции 
присваивания не предпринимаются каких-либо действий; в противном случае вызы- 
вается деструктор, а затем с помощью риі копируется каждый элемент очереди, сто- 
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ящей справа от знака операции. Конструктор копирования обнуляет очередь (т.е. 
делает ее пустой) и затем с помощью операции присваивания выполняет копирова- 


ние. 


За счет помещения в класс конструктора копирования, перегруженной операции 
присваивания и деструктора (аналогично тому, как это делается в программе 4.22), 
можно превратить любой класс языка С++ в АТД первого класса. Эти функции обыч- 
но действуют по принципу простого обхода структур данных. Однако эти дополни- 
тельные шаги предпринимаются не всегда, поскольку 


■ часто используется только один экземпляр объекта определенного класса; 

■ даже при условии присутствия нескольких экземпляров может оказаться необ- 
ходимым предотвращение непреднамеренного копирования огромных струк- 
тур данных. 


Короче говоря, осознав возможность создания типов данных первого класса, мы 
сознаем также необходимость достижения компромисса между качеством и ценой, 
которую приходится платить за его реализацию и использование, в особенности, когда 
дело касается большого объема данных. 


Программа 4.22 Реализация очереди первого класса на базе связного списка 

Есть возможность модернизировать реализацию класса "Очередь ПРО" из программы 
4.14 и превратить этот тип данных в принадлежащий первому классу. Для этого в класс 
потребуется добавить приведенные ниже реализации конструктора копирования, 
перегруженной операции присваивания и деструктора. Эти функции перекрывают 
функции, используемые по умолчанию, и вызываются, когда необходимо копировать 
или уничтожать объекты. 

Деструктор -ОІІЕІІЕО вызывает приватную функцию-член сіеіеіеіізі, которая проходит 
по всему связному списку, вызывая для каждого узла функцию сіеіеіе. Таким образом, 
когда освобождается память, связанная с указателями, освобождается также вся 
память, занимаемая объектом. 

Если перегруженная операция присваивания вызывается для случая, когда объект 
присваивается самому себе (например, я = я), никакие действия не выполняются. В 
противном случае вызывается функция Яеіеіеіізі, чтобы очистить память, связанную со 
старой копией объекта (в результате получается пустой список). Затем для каждого 
элемента списка, который соответствует объекту, находящемуся справа от знака 
операции присваивания, вызывается риі и таким образом создается копия этого 
списка. В обоих случаях возвращаемое значение представляет собой ссылку на 
целевой объект (объект, которому присваиваются значения другого объекта). 

Конструктор копирования С№ЕІІЕ(соп8і ОІІЕІІЕ&) обнуляет список и затем с помощью 
перегруженной операции присваивания создает копию своего аргумента. 



ѵоісі сіеІеЬеІізЬ 



{ 

^ог (Ііпк Ь = Ьеасі; Ь != 0; Ьеасі 
{ Ь = Ьеасі->пехЪ; сіеІеЬр Ьеасі; 

} 

риЫіс: 

(2ЦЕЦЕ (сопзѣ фЦЕЦЕ& гЬз) 

{ Ьеасі = 0; *ЬЫз = гЬз; } 

0ЦЕЦЕ& орегаЬог= (сопзЬ фЦЕЦЕб гЬз) 
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{ 

(ѣЬіз == &гЬз) геЪигп **Ыііз; 
сіѳіѳіѳііз'Ь () ; 

Ііпк Ь = гЬз.Ьеасі; 

«Ьііе (Ъ != 0) 

{ риѣ (‘Ь-^і'Ьет) ; Ь = ѣ^пехѣ; } 
гѳ-Ьигп *ЪЫз; 

} 

-ОЦЕЦЕ ( ) 

{ сіеіеѣеіізі: () ; } 


Приведенные рассуждения также объясняют, почему библиотека языка С++ вклю- 
чает класс 8ігіп§, несмотря на привлекательность низкоуровневой структуры данных 
типа строки в стиле языка С. С-строки не принадлежат к типам данных первого клас- 
са, поскольку они не особенно лучше указателей. В самом деле, многие программис- 
ты впервые сталкиваются с некорректной семантикой копирования тогда, когда ко- 
пируют указатель на С-строку, ожидая, что будет копироваться сама строка. В 
противоположность этому, класс §ігіп§ языка С++ является типом данных первого 
класса, поэтому при работе с большими строками следует соблюдать особую осторож- 
ность. 

В качестве другого примера можно изменить программу 4.20 таким образом, что- 
бы она периодически распечатывала лишь несколько первых элементов каждой оче- 
реди, и можно было бы отслеживать продвижение очередей даже тогда, когда они 
становятся очень большими. Однако, когда очереди будут очень большими, произво- 
дительность программы существенно снизится, поскольку при инициализации локаль- 
ной переменной в цикле Гог вызывается конструктор копирования, который созда- 
ет копию всей очереди, даже если требуется всего лишь несколько элементов. Далее, 
в конце каждой итерации цикла память, занимаемая очередью, освобождается дест- 
руктором, так как она связана с локальной переменной. Для программы 4.20 в ее 
нынешнем виде, когда выполняется доступ к каждому элементу копии, дополнитель- 
ные затраты на выделение и освобождение памяти увеличивают время выполнения 
только на некоторый постоянный коэффициент. Однако, если требуется доступ всего 
лишь к нескольким элементам очереди, платить столь высокую цену было бы нера- 
зумно. Пожалуй, в такой ситуации для операции копировать большее предпочтение 
стоит отдать реализации, используемой по умолчанию, которая копирует только ука- 
затели, и добавить в этот АТД операции, обеспечивающих доступ к элементам очереди 
без ее модификации. 

Утечка памяти — это трудно выявляемый дефект, который словно чума поража- 
ет многие большие системы. Хотя освобождение памяти, занятой некоторым объек- 
том, обычно является делом, в принципе, простым, на практике очень тяжело быть 
уверенным в том, что удалось отыскать все вплоть до последней распределенной об- 
ласти памяти. Механизм деструкторов в языке С++ полезен, однако система не мо- 
жет гарантировать, что обход структур данных совершен так, как задумывалось. Ког- 
да объект прекращает свое существование, его указатели теряются безвозвратно, и 
любой указатель, "оставленный без внимания" деструктором, потенциально ведет к 
утечке памяти. Один из типовых источников утечки памяти возникает тогда, когда в 
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классе вообще забывают определить деструктор — конечно же, не стоит надеяться, 
что деструктор, используемый по умолчанию, корректно очистит память. Особое вни- 
мание этому вопросу необходимо уделить в ситуациях, когда используются абстрак- 
тные классы, наподобие класса из программы 4.12. 

В ряде систем существует автоматическое распределение памяти — в таких случаях 
система самостоятельно определяет, какая область памяти больше не используется 
программами, после чего освобождает ее. Ни одно из этих решений не является пол- 
ностью удобоваримым. Одни полагают, что распределение памяти — слишком важ- 
ное дело, чтобы его можно было поручать системе; другие же считают, что это слиш- 
ком важное дело, чтобы его можно было поручать программистам. 

Список вопросов, которые могут возникнуть при рассмотрении реализаций АТД, 
будет очень длинным даже в случае таких простых АТД, как те, которые рассматри- 
ваются в настоящей главе. Нужна ли нам возможность поддерживать в одной очере- 
ди хранение объектов разных типов? Требуется ли нам в одной клиентской програм- 
ме использовать разные реализации для очередей одного и того же типа, если 
известно, что они характеризуются разной производительностью? Следует ли вклю- 
чать в интерфейс информацию об эффективности реализаций? Какую форму долж- 
на иметь эта информация? Подобного рода вопросы подчеркивают, насколь важно 
уметь разбираться в основных характеристиках алгоритмов и структур данных, и по- 
нимать, каким образом клиентские программы могут эффективно их использовать. 
В некотором смысле, именно этом и является темой книги. Хотя полные реализации 
часто представляют собой упражнения по технике программирования, а не по про- 
ектированию алгоритмов, мы стремимся не забывать об этих существенных вопро- 
сах с тем, чтобы разработанные алгоритмы и структуры данных могли послужить ба- 
зисом для создания инструментальных программных средств в самых разнообразных 
приложениях (см. раздел ссылок). 


Упражнения 


> 4.63 Перегрузите операции + и += для работы с комплексными числами (програм- 
мы 4.18 и 4.19). 


4 . 64 . Преобразуйте АТД "Отношения эквивалентности" (из раздела 4.5) в тип дан- 
ных первого класса. 

4.65 Создайте АТД первого класса для использования в программах, оперирующих 
с игральными картами. 


•• 4.66 Используя АТД из упражнения 4.65, напишите программу, которая опытным 
путем определит вероятность раздачи различных наборов карт при игре в покер. 

о 4.67 Разработайте реализацию для АТД "Комплексное число" на базе представле- 
ния комплексных чисел в полярных координатах (т.е. в форме ге іѲ ). 

• 4.68 Воспользуйтесь тождеством е іѲ = со$Ѳ + і $\пѲ для доказательства того, что 
е 2ю — 1, а N комплексных корней УѴ-ой степени из единицы равны 
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4.69 Перечислите корни 7Ѵ- ой степени из единицы для значений N от 2 до 8. 

• 4.70 С использованием ргесізіоп и из файла іозігеат.Ь создайте реализацию 
перегруженной операции << для программы 4.19, которая выдаст выходные дан- 
ные, показанные на рис. 4.12 для программы 4.17. 

[> 4.71 Опишите точно, что происходит в результате запуска программы 4.20 моде- 
лирования очереди, используя такую простую реализацию, как программа 4.14 или 
4.15. 

4.72 Разработайте реализацию данного в тексте АТД первого класса "Очередь 
РІРО" (программа 4.21), в которой в качестве базовой структуры данных исполь- 
зуется массив. 

> 4.73 Напишите интерфейс АТД первого класса для стека. 

4.74 Разработайте реализацию АТД первого класса для стека из упражнения 4.73, 
которая в качестве базовой структуры данных использует массив. 

4.75 Разработайте реализацию АТД первого класса для стека из упражнения 4.73, 
которая в качестве базовой структуры данных использует связный список. 

о 4.76 Используя приведенные ранее АТД первого класса для комплексных чисел 
(программы 4.18 и 4.19), модифицируйте программу вычисления постфиксных вы- 
ражений из раздела 4.3 таким образом, чтобы она вычисляла постфиксные выра- 
жения, состоящие из комплексных чисел с целыми коэффициентами. Для просто- 
ты считайте, что все комплексные числа имеют ненулевые целые коэффициенты 
как для вещественной, так и для мнимой частей, и записываются без пробелов. 
Например, для исходного выражения 

1+2і 0+1і + 1-2і * 3+4і + . 

программа должна вывести результат 8+4І. 

•• 4.77 Выполните математический анализ процесса моделирования очереди в про- 
грамме 4.20, чтобы определить вероятность (как функцию аргументов N и М) 
того, что очередь, выбранная для А- ой операции §еі, будет пустой, а также ожи- 
даемое количество элементов в этих очередях после N итераций цикла Гог. 


4.9 Пример использования АТД в приложении 

В качестве заключительного примера рассмотрим специализированный АТД, ко- 
торый характеризует отношения между областями применения и типами алгоритмов 
и структур данных, которые обсуждаются в настоящей книге. Этот пример АТД, пред- 
ставляющего полином , взят из области символической логики , в которой компьютеры 
помогают оперировать с абстрактными математическими объектами. Цель заключа- 
ется в том, чтобы получить возможность писать программы, которые могут опериро- 
вать с полиномами и выполнять вычисления, наподобие 

( 2 3 V ч 2 3 о 4 5 6 

. X X ( Л 2 Л Л X X 2х X X 

2 6 ѵ ' 2 3 3 3 6 

У 


ѵ 
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Кроме того, необходима возможность вычислять полиномы для заданного значе- 
ния х. Для х = 0.5 обе стороны приведенного выше уравнения имеют значение 
1.1328125. Операции умножения, сложения и вычисления полиномов являются цент- 
ральными операциями в огромном числе математических вычислений. Программа 
4.23 — это простой пример, в котором выполняются символические операции, соот- 
ветствующие полиномиальным уравнениям 

(х + I) 2 = х 2 + 2х + 1, 

(х+ 1) 3 = х 3 + 3* 2 + 3*+ 1, 

(х+ 1 ) 4 = х 4 + 4х 3 + 6х 2 + 4х + 1, 

(х+ 1 ) 5 = х 5 + 5х 4 + 10х 3 + 10х 2 + 5х + 1 , 


Упомянутые основные идеи можно развить дальше и включить такие операции, 
как сложение, интегрирование, дифференцирование, сведения о специальных фун- 
кциях и т.п. 

Программа 4.23 Клиентская программа для АТД "Полином" 

(биномиальные коэффициенты) 

Эта клиентская программа использует АТД "Полином", определенный в интерфейсе 
(программа 4.24), для выполнения алгебраических операций над полиномами с 
целыми коэффициентами. В программу из командной строки вводится целое число N 
и число с плавающей точкой р. Затем она вычисляет (х + 1)% проверяет результат, 
вычисляя значение результирующего полинома для х = р. 

#±пс1и4е СіозЬгеага. Ь> 

#іпс1исіе <з1(11іЬ . Ь> 

#іпс1исіе " РОЬУ . схх " 

іп-Ь таіп(іп-Ь агдс, сЬаг *агдѵ[]) 

{ іп-Ь N = а-Ьоі (агдѵ[1] ) ; ^ІоаЬ р = аЬоіЕ (агдѵ[2] ) ; 
сои-Ь « "Віпотіаі сое^ісіепЬз" « епсіі; 

РОЬУ<іп-Ь> х(1,1) , опѳ(1 / 0) / Ъ = х + опе, у = -Ь; 
зЬог (іп^: і = 0; і < И; і++) 

{ у = у*Ь; соиЬ: « у « епсіі; } 
сои-Ь « у.ѳѵаі(р) « епсіі; 

} 


Первый шаг — определить АТД "Полином" так, как это иллюстрируется интер- 
фейсом из программы 4.24. Для такой хорошо понятной математической абстракции, 
как полином, спецификация настолько ясна, что ее не стоит выражать словесно (так 
же, как и в случае АТД для комплексных чисел, который обсуждался в разделе 4.8): 
необходимо, чтобы экземпляры АТД вели себя в точности так же, как и эта хорошо 
понятная математическая абстракция. 

Для реализации функций, определенных в этом интерфейсе, потребуется выбрать 
конкретную структуру данных для представления полиномов и затем реализовать 
соответствующие алгоритмы для работы с этой структурой данных, дабы полученная 
реализация функционировала в соответствии с ожиданиями клиентской программы. 
Как обычно, выбор структуры данных влияет на потенциальную эффективность ал- 
горитмов, посему стоит обдумать несколько вариантов. Так же как для стеков и оче- 
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редей, можно воспользоваться представлением на базе связного списка либо пред- 
ставлением на базе массива. Программа 4.25 — это реализация, в которой использу- 
ется представление на базе массива; реализация на базе связного списка остается на 
самостоятельную проработку (см. упр. 4.78). 

Для сложения (асМ) двух полиномов складываются их коэффициенты. Если поли- 
номы представлены в виде массивов, функция асМ , как показано в программе 4.25, 
равнозначна одиночному циклу по этим массивам. Для умножения (тиіііріу) двух по- 
линомов применяется элементарный алгоритм, основанный на законе распределе- 
ния. Один полином умножается на каждый член другого, результаты располагаются 
так, чтобы степени х соответствовали друг другу, и затем складываются для получе- 
ния окончательного результата. В следующей таблице кратко показывается этот вы- 
числительный процесс для (1 — х + х 2 / 2 — х 3 / 6 )(1 + х + х 2 + х 3 ): 

2 3 

, X X 

1-х + 

2 6 

г 3 г 4 

О А А 

+ X — X н 

2 6 

2 3 X 4 X 5 

+ ДГ-ЛГ + 

2 6 




Время, необходимое для умножения таким способом двух полиномов, по-видимо- 
му, пропорционально УѴ 2 . Отыскать более быстрый алгоритм решения этой задачи 
весьма непросто. Эта тема рассматривается более подробно в части 8, где будет по- 
казано, что время, необходимое для решения такой задачи с помощью алгоритма 
"разделяй-и-властвуй", пропорционально УѴ 3/2 , а время, необходимое для ее решения 
с помощью быстрого преобразования Фурье, пропорционально УѴ 1§УѴ. 

Программа 4.24 Интерфейс АТД "Полином" 

Для того чтобы можно было задавать коэффициенты различных типов, в этом 
интерфейсе АТД "Полином" используется шаблон. Здесь также перегружаются 
бинарные операции + и *, поэтому в арифметических выражениях такие операции 
можно задавать и для полиномов. Конструктор, вызванный с аргументами с и N. 
создает полином, соответствующий выражению сх ы . 

ѣетріаѣе <с1азз КшпЬег> 
сіазз РОЬУ 

{ 


// программный код, зависящий от реализации 
риЫіс : 

РОЬУ<НшпЪег> (ИитЬег , іп'Ь) ; 

±1оаЬ еѵаІ(іЕІоаѣ) сопзѣ; 

іігіепсі РОЬУ орегаѣог+(РОЬУ &, РОЬУ &) ; 

^гіепсі РОЬУ орегаѣог* (РОЬУ &, РОЬУ &) ; 
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В реализации функции еѵаіиаіе (вычислитъ) из программы 4.25 используется эф- 
фективный классический алгоритм, известный как алгоритм Горнера (Нотег'з 
аІ$огіікт). Самая простая реализация этой функции заключается в непосредственном 
вычислении выражения с использованием функции, вычисляющей х*. При таком под- 
ходе требуется время с квадратичной зависимостью от N. В более сложной реализа- 
ции значения х ' запоминаются в таблице и затем используются при непосредственных 
вычислениях. В данной ситуации требуется дополнительный объем памяти, линейно 
зависящий от N. Алгоритм Горнера — это прямой оптимальный линейный алгоритм, 
основанный на следующем использовании круглых скобок: 

а 4 х 4 + я 3 х 3 + а 2 х 2 +а х х + а 0 = {((а А х + а 3 )х + а 2 )х + а { )х + а 0 . 

Алгоритм Горнера часто представляют как ловкий прием, экономящий время, но 
в действительности — это первый выдающийся пример элегантного и эффективно- 
го алгоритма, который сокращает время, необходимое для выполнения этой важной 
вычислительной задачи, делая его не квадратично, но линейно зависимым от N. Пре- 
образование строк с АЗСІІ-символами в целые числа, выполняемое в программе 4.5, 
является разновидностью алгоритма Горнера. Мы снова встретимся с алгоритмом 
Горнера в главе 14 и части 5, где он выступает в качестве основы для важного вида 
вычислений, относящихся к некоторым реализациям таблиц символов и поиску строк. 

Программа 4.25 Реализация АТД "Полином" на базе массива 

В этой реализации АТД для полиномов представление данных состоит из степени и 
указателя на массив коэффициентов. Это не АТД первого класса: клиентские 
программы должны знать, что возможна утечка памяти, а семантика копирования 
заключается в копировании указателей (см. упр. 4.79). 

Іетріаіе <с1азз НшпЬег> 
сіазз РОЬУ 

{ 


іпі п; ЫитЬвг *а; 
риЫіс : 

РОЬУ<1*шпЪег> (ЫшпЬег с, іпі Ы) 

{ а = пе*г ИитЬег [N+1] ; п = N+1; а[Ы] = с; 
Іог (іпі і = 0; і < И; і++) а[і] = 0; 

> 

Ноаі ѳѵа1(11оа1 х) сопзі 
{ сІоиЫѳ 1 = 0.0; 

Іог (іпі і = п-1; і >= 0; і--) 

1 = 1*х + а[і] ; 
геіигп 1 ; 

} 

ЗЕгіѳпсі РОЬУ орега1ог+ (РОЬУ &р, РОЬУ 

{ РОЬУ 1(0, р.п>д.п ? р.п-1 : д.п-1) ; 

±ог (іпі і = 0; і < р.п; і++) 

1.а[і] += р . а [і] ; 

Іог (іпі з = 0; з < Ч-п; 3++) 

Ъ.а[з] += Ч-а[з] ; 
гѳіигп 1 ; 


} 
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^гіепсі РОЬУ орегаЪог* (РОЬУ &р, РОЬУ &д) 
{ РОЬУ Ъ(0, (р .п-1) + (д. п-1) ) ; 

Ног (іпі і = 0; і < р.п; і++) 

^ог (іпі ^ = 0; і < д.п; ^++) 
Ъ.а[і+Я += Р- а [і] *я. а [ 3 ] ; 
гѳ^Ьигп 1 ; 

} 

1 ; 


В ходе выполнения перегруженных операций + и * создаются новые полиномы, 
поэтому данная реализация связана с утечкой памяти. Утечку памяти можно легко 
ликвидировать, добавляя в реализацию конструктор копирования, перегруженную 
операцию присваивания и деструктор. Так бы стоило и поступить в случае полиномов 
очень больших размеров, обработки огромного количества небольших полиномов, а 
также создания АТД для использования в каком-нибудь приложении (см. упр. 4.79). 

Использование в реализации АТД "Полином" представления на базе массива — 
это, как обычно, лишь одна из возможностей. Если показатели степени очень боль- 
шие, а членов в полиномах немного, то представление на базе связного списка мо- 
жет оказаться более подходящим. Например, не стоило бы применять программу 4.25 
для выполнения такого умножения: 

3000000 
X > 

поскольку в ней будет использоваться массив с выделенным пространством под мил- 
лионы неиспользуемых коэффициентов. В упражнении 4.78 вариант со связным спис- 
ком рассматривается более подробно. 

Упражнения 

о 4.78 Напишите реализацию для приведенного в тексте АТД "Полином" (программа 
4.24), в которой в качестве базовой структуры данных используются связные спис- 
ки. Списки не должны содержать узлов, соответствующих членам с нулевыми ко- 
эффициентами. 

о 4.79 Устраните утечку памяти в программе 4.25, добавив в нее конструктор копи- 
рования, перегруженную операцию присваивания и деструктор. 

> 4.80 Добавьте перегруженные операции += и *= в АТД "Полином" из программы 
4.25. 

о 4.81 Расширьте рассмотренный в главе АТД "Полином", включив в него операции 
интегрирования и дифференцирования полиномов. 

4.82 Модифицируйте полученный АТД "Полином" из упражнения 4.81 так, чтобы 
в нем игнорировались все члены с экспонентами, большими или равными цело- 
му числу Л/, которое поступает в клиентскую программу во время инициализации. 

•• 4.83 Расширьте АТД "Полином" из упражнения 4.81 так, чтобы он включал деле- 
ние и сложение полиномов. 

• 4.84 Разработайте АТД, который позволяет клиентским программам выполнять 
сложение и умножение целых чисел произвольной точности. 


_|_ уоооооо^і _|_ ^000000^ _ у 000000 + ^2000000 _|_ 
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• 4.85 Используя АТД, разработанный в упражнении 4.84, модифицируйте програм- 
му вычисления постфиксных выражений из раздела 4.3 так, чтобы она могла вы- 
числять постфиксные выражения, состоящие из целых чисел произвольной точно- 
сти. 

•• 4.86 Напишите клиентскую программу, которая с помощью АТД "Полином" из уп- 
ражнения 4.83 вычисляет интегралы, используя разложение функций в ряды Тей- 
лора и оперируя с ними в символической форме. 

4.87 Разработайте АТД, который позволяет клиентским программам выполнять 
алгебраические операции над векторами чисел с плавающей точкой. 

4.88 Разработайте АТД, который позволяет клиентским программам выполнять 
алгебраические операции над матрицами абстрактных объектов, для которых оп- 
ределены операции сложения, вычитания, умножения и деления. 

4.89 Напишите интерфейс для АТД "Символьная строка", который включает опе- 
рации создания строк, сравнения двух строк, конкатенации двух строк, копиро- 
вания одной строки в другую и получения длины строки. Примечание : интерфейс 
должен быть похож на интерфейс, доступный в стандартной библиотеке С++. 

4.90 Напишите реализацию для интерфейса йз упражнения 4.89, используя там, где 
это необходимо строковую библиотеку С++. 

4.91 Напишите реализацию для полученного в упражнении 4.89 интерфейса стро- 
ки, используя представление на базе связного списка. Проанализируйте время вы- 
полнения каждой операции для наихудших случаев. 

4.92 Напишите интерфейс и реализацию АТД "Множество индексов", в котором 
обрабатываются множества целых чисел в диапазоне от 0 до М - 1 (где М — за- 
данная константа) и имеются операции создания множества, объединения двух 
множеств, пересечения двух множеств, дополнения множества, разности двух мно- 
жеств и вывода содержимого множества. Для представления каждого множества 
используйте массив из М — 1 элементов, принимающих значения 0—1. 

4.93 Напишите клиентскую программу, которая тестирует АТД, созданный в уп- 
ражнении 4.92. 

4.10 Перспективы 

Приступая к изучению алгоритмов и структур данных, следует устойчиво владеть 
фундаментальными понятиями, лежащими в основе АТД. Рассмотрим три главных 
причины: 

■ АТД являются важными и широко используемыми инструментальными сред- 
ствами разработки программного обеспечения, и многие из изучаемых алго- 
ритмов служат реализациями широко применяемых фундаментальных АТД. 

■ АТД помогают инкапсулировать разрабатываемые алгоритмы, чтобы один и тот 
же код программы мог служить нам для самых разных целей. 

■ АТД предоставляют собой удобный механизм, который используется в процессе 
разработки алгоритмов и сравнения характеристик, связанных с их производи- 
тельностью. 
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С теоретической точки зрения, АТД воплощают простой (и здравый) принцип, зак- 
лючающийся в том что мы обязаны точно описывать способы манипуляций с данны- 
ми. Для выполнения подобной задачи в языке С++ имеется удобный механизм кли- 
ент-интерфейс-реализация, который подробно рассматривался в настоящей главе; он 
позволяет получать на языке С++ код, обладающий рядом желанных свойств. Во 
многих современных языках присутствуют специальные средства поддержки, позво- 
ляющие разрабатывать программы с упомянутыми свойствами, тем не менее, суще- 
ствует общий для разных языков подход — когда в языке отсутствуют специальные 
средства поддержки, устанавливаются определенные правила программирования, 
обеспечивающие требуемое разделение на клиентские программы, интерфейсы и 
реализации. 

По мере рассмотрения постоянно растущего круга возможностей касательно за- 
дания характеристик абстрактных типов данных, приходится сталкиваться с непре- 
рывно расширяющимся кругом проблем, связанных с созданием эффективных реа- 
лизаций. Многочисленные рассмотренные ранее примеры иллюстрируют пути 
преодоления этих трудностей. Мы постоянно стремимся достичь следующей цели — 
эффективно реализовать все операции, однако, весьма маловероятно, чтобы в реа- 
лизации общего назначения удалось сделать это для всех наборов операций. Подоб- 
ного рода ситуация противоречит тем принципам, которые, в первую очередь, под- 
водят к созданию абстрактных типов данных, так как во многих случаях 
разработчикам АТД необходимо знать свойства клиентских программ для того, что- 
бы определять, какие реализации АТД будут функционировать наиболее эффектив- 
но. А вот разработчикам клиентских программ следует располагать информацией о 
характеристиках производительности различных реализаций, дабы адекватно опреде- 
лять, какой реализации отдавать предпочтение в том или ином приложении. Как все- 
гда, необходимо достичь некоторого баланса. В настоящей книге рассматриваются 
многочисленные подходы к реализации различных вариантов фундаментальных АТД, 
каждый из которых имеет важное применение. 

Один АТД можно использовать для создания другого. Абстракции, подобные ука- 
зателям и структурам, определенным в языке С++, использовались для построения 
связных списков. Далее абстракции связных списков и массивов, доступных в С++, 
применялись при построении стеков магазинного типа. Наконец, стеки магазинно- 
го типа использовались для организации вычислений арифметических выражений. 
Понятие АТД позволяет создавать большие системы на основе разных уровней абст- 
ракции, от существующих в компьютере машинных инструкций, до разнообразных 
возможностей языка программирования, вплоть до сортировки, поиска и другой фун- 
кциональности высокого уровня, которая обеспечивается алгоритмами (см. части 3 и 
4). Некоторые приложения требуют еще более высокого уровня абстракции, поэто- 
му стоит обратиться к частям с 5 по 8. Абстрактные типы данных — это лишь этап в 
истинной бесконечности создания все более и более мощных абстрактных механиз- 
мов, в чем и заключается суть эффективного использования компьютеров для реше- 
ния современных задач. 



Рекурсия 
и деревья 


Р екурсия относится к одному из фундаментальных по- 
нятий в математических и компьютерных науках. В 
языках программирования рекурсивной программой на- 
зывают программу, которая обращается к самой себе (по- 
добно тому, как в математике рекурсивной функцией на- 
зывают функцию, которая определена через понятия 
самой этой функции). Рекурсивная программа не может 
вызывать себя до бесконечности, поскольку в этом случае 
она никогда не завершилась бы (точно так же рекурсив- 
ная функция не может всегда определяться понятиями са- 
мой функции, поскольку тогда определение стало бы цик- 
лическим). Следовательно, вторая важная особенность 
рекурсивной программы — наличие условия завершения , 
позволяющего программе прекратить вызывать себя 
(применительно к математике это условие, при выполне- 
нии которого функция перестает определяться понятиями 
самой этой функции). Все практические вычисления мож- 
но представить рекурсивными структурами. 

Изучение рекурсии неразрывно связно с изучением 
рекурсивно определяемых структур, называемых деревья- 
ми . Деревья используются как для упрощения понимания 
и анализа рекурсивных программ, так и в качестве явных 
структур данных. В главе 1 мы уже встречались с приме- 
нением деревьев (хотя и не рекурсивным). Взаимосвязь 
между рекурсивными программами и деревьями лежит в 
основе значительной части материала книги. Деревья ис- 
пользуются для упрощения понимания рекурсивных про- 
грамм; в свою очередь, рекурсивные программы исполь- 
зуются для построения деревьев; в конечном итоге, 
глобальная взаимосвязь между ними (и рекуррентные от- 
ношения) применяется при анализе алгоритмов. Рекурсия 
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помогает разрабатывать изящные и эффективные структуры данных и алгоритмы для 
широчайшего спектра применений. 

Основная цель этой главы заключается в исследовании рекурсивных программ и 
структур данных как практических инструментов. Вначале исследуется взаимосвязь 
между математической рекурсией и простыми рекурсивными программами и приво- 
дится ряд примеров применения рекурсии. Затем рассматривается фундаментальная 
рекурсивная схема, известная под названием "разделяй и властвуй", которая исполь- 
зуется для решения задач общего характера в нескольких последующих разделах этой 
книги. После этого приводится общий подход к реализации рекурсивных программ, 
называемый динамическим программированием , который предоставляет эффективные и 
элегантные решения для обширного класса задач. Затем подробно рассматриваются 
деревья, их математические свойства и связанные с ними алгоритмы, в том числе ба- 
зовые методы обхода дерева (ігее ігаѵегзаі ), которые лежат в основе рекурсивных про- 
грамм обработки деревьев. В завершение будут анализироваться тесно связанные с 
рекурсией алгоритмы обработки графов — в частности, особое внимание будет уде- 
ляться фундаментальной рекурсивной программе поиска в глубину (беріИ-/ігзі зеагсИ), 
которая служит основой для многих алгоритмов обработки графов. 

Как будет показано далее, многие интересные алгоритмы легко и просто реали- 
зуются через рекурсивные программы, а многие разработчики алгоритмов предпочи- 
тают выражать методы рекурсивно. Кроме того, не менее подробно будут исследо- 
ваться и нерекурсивные методы реализации. Часто можно не только создать простые 
алгоритмы с использованием стеков, которые, в основном, эквивалентны рекурсив- 
ным, но и отыскать нерекурсивные альтернативы, которые приводят к такому же 
конечному результату через иную последовательность вычислений. Рекурсивная фор- 
мулировка проблемы предоставляет структуру, в рамках которой доступны и более 
эффективные альтернативы. 

Исчерпывающее исследование рекурсии и деревьев могло бы послужить темой 
отдельной книги, поскольку эти концепции находят применение во множестве ком- 
пьютерных приложений, а также выходят далеко за рамки компьютерных наук. Фак- 
тически можно было бы сказать, что вся эта книга посвящена освещению рекурсии 
и деревьев, поскольку с фундаментальной точки зрения упомянутые темы затраги- 
ваются в каждой главе. 

5.1 Рекурсивные алгоритмы 

Рекурсивный алгоритм — это алгоритм, решающий задачу путем решения одного 
или нескольких более узких вариантов той же задачи. Для реализации рекурсивных 
алгоритмов в С++ используются рекурсивные функции — функции, которые вызыва- 
ют самих себя. Рекурсивные функции в С++ соответствуют рекурсивным определе- 
ниям математических функций. Изучение рекурсии начнем с исследования программ, 
которые непосредственно вычисляют математические функции. Как будет показано, 
базовые механизмы можно расширить, что приведет к обобщенной парадигме про- 
граммирования. 
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Программа 5.1 Функция вычисления факториала (рекурсивная реализация) 

Эта рекурсивная функция вычисляет функцию ЛЯ, используя стандартное рекурсивное 
определение. Она возвращает правильное значение, когда вызывается с 
неотрицательным и достаточно малым аргументом Ы, чтобы ЛЯ можно было 
представить типом іпі 

іпЪ ^асіогіаі (іпЪ Ы) 

{ 

(Ы == 0) гѳѣигп 1; 
геЪигп 11*^асЪогіа1 (N-1) ; 

} 


Рекуррентные отношения (см. раздел 2.5) являются рекурсивно определенными 
функциями. Рекуррентное отношение задает функцию, областью допустимых значе- 
ний которой являются неотрицательные числа, определяемые либо некоторыми на- 
чальными значениями, либо (рекурсивно) множеством ее собственных значений, 
полученных на основе меньших целых значений. Вероятно, наиболее известной из 
таких функций является функция вычисления факториала, которая определяется ре- 
куррентным отношением 

N1 = ІѴ- (7Ѵ- 1)!, для N > 1, причем 0! = 1 

Это* определение непосредственно соответствует рекурсивной функции С++ в 
программе 5.1. 

Программа 5.1 эквивалентна простому циклу. Например, следующий цикл Гог вы- 
полняет такое же вычисление: 

^ог ( Ь = 1, і = 1; і <= N7 і++) Ь *= і; 

Как будет показано, рекурсивную программу всегда можно преобразовать в не- 
рекурсивную, которая выполняет такое же вычисление. И наоборот, используя рекур- 
сию, любое вычисление, предполагающее выполнение циклов, можно реализовать, не 
прибегая к циклам. 

Рекурсия используется ввиду того, что зачастую она позволяет выразить сложные 
алгоритмы в компактной форме без ущерба для эффективности. Например, рекур- 
сивная реализация функции вычисления факториала избавляет от необходимости ис- 
пользования локальных переменных. В системах программирования, поддерживаю- 
щих обращения к функциям, издержки рекурсивной реализации определяются 
механизмами, которые используют эквивалент встроенного стека. Большинство со- 
временных систем программирования имеют тщательно разработанные механизмы 
для выполнения такой задачи. Как будет показано, несмотря на это преимущество, 
очень легко можно создать рекурсивную функцию, которая окажется весьма неэф- 
фективной, и поэтому необходимо постараться, чтобы впоследствии не пришлось во- 
зиться с плохо поддающимися исправлениям реализациями. 

Программа 5.2 Сомнительная рекурсивная программа 

Если аргумент N является нечетным, эта функция вызывает саму себя с ЗЛЖ в 
качестве аргумента. Если N является четным, она вызывает себя с Л//2 в качестве 
аргумента. Для гарантированного завершения этой программы нельзя использовать 
индукцию, поскольку не каждый рекурсивный вызов использует аргумент, меньший 
заданного. 
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іпі: риггіе (іпі: Ы) 

{ 

(Ы == 1) ге1:игп 1; 
і* (Ы % 2 = 0) 

ге1:игп риггіе (N/2); 
еізе геѣигп риггіе (3*К+1) ; 

} 


Программа 5.1 иллюстрирует базовые осо- 
бенности рекурсивной программы: она вызы- 
вает саму себя (с меньшими значениями аргу- 
ментов) и содержит условие завершения, при 
выполнении которого непосредственно вычис- 
ляет свое результирующее значение. Дабы убе- 
диться в правильности работы программы, 
можно применить метод математической ин- 
дукции: 

■ Программа вычисляет 0! (исходное зна- 
чение) 

■ Если допустить, что программа вычисля- 
ет к\ для к < N (индуктивное предполо- 
жение), то она вычисляет и ІѴ!. 

Такого рода рассуждения могут привести к быстрому способу разработки алгорит- 
мов для решения сложных задач. 

В языках программирования, подобных С++, существует очень мало ограничений 
для видов создаваемых программ, но, как правило, использование рекурсивных фун- 
кций ограничивается теми, которые позволяют проверять правильность своей рабо- 
ты методом математической индукции, как упоминалось выше. Хотя в этой книге 
вопрос формального подтверждения правильности не рассматривается, нас интере- 
сует объединение сложных программ для выполнения сложных задач, и поэтому тре- 
буется определенная гарантия, что задача будет решена корректно. Механизмы, по- 
добные рекурсивным функциям, могут обеспечить такую гарантию, в то же время 
обеспечивая компактные реализации. В частности, если следовать правилам матема- 
тической индукции, необходимо удостовериться, что создаваемые рекурсивные фун- 
кции удовлетворяют двум основным условиям: 

■ Они должны явно решать задачу для исходного значения. 

■ В каждом рекурсивном вызове должны использоваться меньшие значения ар- 
гументов. 

Эти утверждения являются спорными — они равнозначны тому, что мы должны 
располагать допустимой индуктивной проверкой для каждой создаваемой рекурсив- 
ной функции. Тем не менее, они служат полезным руководством при разработке ре- 
ализаций. 

Программа 5.2 — занятный пример, иллюстрирующий необходимость наличия ин- 
дуктивного аргумента. Она представляет собой рекурсивную функцию, нарушающую 


риггіе (3) 
риггіе (10) 
риггіе (5) 
риггіе (16) 
риггіе (8) 
риггіе (4) 
риггіе (2) 
риггіе (1) 


РИСУНОК 5.1 ПРИМЕР ЦЕПОЧКИ 
РЕКУРСИВНЫХ ВЫЗОВОВ 

Эта вложенная последовательность 
вызовов функции со временем 
завершается, однако нельзя 
гарантировать, что рекурсивная 
функция, используемая в программе 5.2, 
не будет иметь произвольную глубину 
вложенности для какого-либо аргумента. 
Желательно использовать рекурсивные 
программы, которые всегда вызывают 
себя с меньшими значениями аргументов. 
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правило, в соответствии с которым каждый рекур- 
сивный вызов должен использовать меньшие зна- 
чения аргументов, и поэтому для ее проверки 
нельзя использовать метод математической ин- 
дукции. Действительно, неизвестно, завершается 
ли это вычисление для каждого значения УѴ, по- 
скольку значение N не имеет никаких пределов. 
Для меньших целочисленных значений, которые 
могут быть представлены значениями типа іпі, 


§с<і(ЗІ4159, 271828) 

§с<і (271828, 42331) 

§с<і (42331, 17842) 

8С<і( 17842, 6647) 

§ссІ (6647 , 4458) 
§с<і(4458, 2099) 
§ссК2099, 350) 
8с4(350, 349) 
§с<і(349, 1) 
&ссІ(1, 0) 


можно проверить, что программа прерывается 
(см. рис. 5.1 и упражнение 5.4), но для больших 
целочисленных значений (скажем, для 64-разряд- 
ных слов), не известно, входит ли эта программа 
в бесконечный цикл. 

Программа 5.3 — компактная реализация алго- 
ритма Евклида для отыскания наибольшего обще- 
го делителя для двух целых чисел. Алгоритм осно- 
вывается на наблюдении, что наибольший общий делитель двух целых чисел хи у, 
когда х > у, совпадает с наибольшим общим делителем числа у и х по модулю у (ос- 
татка от деления х на у). Число 1 делит и х и у тогда, и только тогда, когда оно делит 
и у и х той у (х по модулю у), поскольку х равно х тод у плюс число, кратное у. Ре- 


РИСУНОК 5.2 ПРИМЕР ПРИМЕНЕНИЯ 
АЛГОРИТМА ЭВКЛИДА 

Эта вложенная последовательность 
вызовов функции иллюстрирует работу 
алгоритма Эвклида , показывая , что 
числа 314159 и 271828 являются 
взаимно простыми. 


курсивные вызовы, созданные для примера выполнения этой программы, показаны 
на рис. 5.2. При реализации алгоритма Эвклида глубина рекурсии зависит от ариф- 
метических свойств аргументов (она связана с ними логарифмической зависимостью). 


Программа 5.3 Алгоритм Эвклида 

Это один из наиболее давно известных алгоритмов, разработанный свыше 2000 лет 
назад — рекурсивный метод отыскания наибольшего общего делителя двух целых 
чисел. 


іп-Ъ дс<і(іпѣ т, іпѣ п) 

{ 

іі: (п == 0) геѣигп т; 
геѣигп дс<і(Л, т % п) ; 

} 


Программа 5.4 — пример с несколькими рекурсивными вызовами. Она оценива- 
ет другое выражение, по существу выполняя те же вычисления, что и программа 4.2, 
но применительно к префиксным (а не постфиксным) выражениям, используя рекур- 
сию вместо явного стека. В этой главе будут встречаться множество других примеров 
использования рекурсивных и эквивалентных программ, в которых задействуются 
стеки. Конкретная взаимосвязь между несколькими парами таких программ исследу- 
ется достаточно подробно. 

Программа 5.4 Рекурсивная программа для оценки префиксных выражений 

Для оценки префиксного выражения либо осуществляется преобразование числа из 
А5СІІ в двоичную форму (в цикле жНіІе) в конце, либо над двумя операндами, которые 
оцениваются рекурсивно, выполняется операция, указанная первым символом 
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выражения. Эта функция является рекурсивной, однако использует глобальный массив, 
содержащий выражение и индекс текущего символа выражения. Индекс изменяется 
после вычисления каждого подвыражения. 

сЬаг *а ; іп-Ь і ; 
іпЪ еѵа1() 

{ іпі. х = 0 ; 

ѵЫІв (а[і] == ’ ' ) і++; 

і* (а [і] == ' + ’) 

{ і++; геѣигп еѵа1() + еѵа1(); } 

і* (а [і] == '*') 

{ і++; геѣигп ѳѵа1() * вѵа1(); } 

ѵгііііе ( (а [і] >= 'О') && (а[і] <= '9')) 

х = 10*х + (а[і++] - 1 0 ' ) ; 

геѣигп х; 

} 


Пример обработки префиксного выражения программой 5.4 показан на рис. 5.3. 
Множество рекурсивных вызовов маскируют сложную серию вычислений. Подобно 
большинству рекурсивных программ, работу этой программы проще всего понять, 


воспользовавшись методом индукции: полагая, что 
она работает правильно применительно к простым 
выражениям, можно предположить, что это спра- 
ведливо и применительно к сложным выражениям. 
Программа представляет собой простой пример ре- 
курсивного нисходящего анализатора — аналогичный 
процесс используется для преобразования программ 
С++ в машинные коды. 

Реальная проверка правильности оценки выра- 
жения программой 5.4 — гораздо более сложная за- 
дача, нежели проверка работы описанных функций 
с целочисленными аргументами, и в этой книге 
встретятся еще более сложные рекурсивные про- 
граммы и структуры данных. Соответственно, мы 
не ставим перед собой идеалистичной задачи предо- 
ставления полных индуктивных доказательств пра- 
вильности каждой создаваемой рекурсивной про- 
граммы. В данном случае способность программы 
"узнавать”, как следует разделять операнды в соот- 
ветствии с заданным оператором, вначале кажется 
непостижимой (возможно потому, что не сразу по- 
нятно, как выполнить это разделение на верхнем 
уровне). Однако в действительности вычисление до- 
статочно понятно (поскольку нужная ветвь про- 
граммы при каждом вызове функции однозначно 
определяется первым символом выражения). 

В принципе, любой цикл Гог можно заменить эк- 
вивалентной рекурсивной программой. Часто ре- 


еѵаІО *+7**46+895 
еѵаі О + 7 * * 4 6 + 8 9 
еѵаі О 7 

еѵаі О ♦♦46 + 89 
еѵаі О ♦ 4 6 
еѵаі О 4 
еѵаі О 6 
геЪигп 24 = 4*6 
еѵаі О +89 
еѵаі О 8 
еѵаі О 9 
ге-Иіт 17 = 8 + 9 
ге-Ьит 408 = 24*17 
геіит 415 = 7+408 
еѵаі О 5 

ге-Ьтдт 2075 = 415*5 

РИСУНОК 5.3 ПРИМЕР ОЦЕНКИ 
ПРЕФИКСНОГО ВЫРАЖЕНИЯ 

Эта вложенная 
последовательность вызовов 
функций иллюстрирует работу 
рекурсивного алгоритма оценки 
префиксного выражения для 
конкретного примера выражения. 
Для простоты здесь показаны 
аргументы выражения. Сам по себе 
алгоритм никогда явно не 
определяет протяженность строки 
своих аргументов: вместо этого 
всю необходимую информацию он 
извлекает из начала строки. 
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курсивная программа предоставляет более естественный способ выражения вычисле- 
ния, чем цикл Гог, поэтому можно воспользоваться преимуществами механизма, пре- 
доставляемого системой, поддерживающей рекурсию. Однако, этот подход имеет один 
скрытый недостаток, о котором следует помнить. Как должно быть понятно из при- 
меров, приведенных на рис. 5. 1-5.3, при выполнении рекурсивной программы вы- 
зовы функций вкладываются один в другой, пока не будет достигнута точка, когда 
вместо рекурсивного вызова выполняется возврат. В большинстве сред программи- 
рования такие вложенные вызовы функций реализуются с помощью эквивалента 
встроенных стеков. Сущность подобного рода реализаций будет исследоваться на 
протяжении данной главы. Глубина рекурсии — это максимальная степень вложенно- 
сти вызовов функций в ходе вычисления. В общем случае глубина будет зависеть от 
вводимых данных. Например, глубина рекурсии в примерах, приведенных на рис. 5.2 
и 5.3, составляет, соответственно, 9 и 4. При использовании рекурсивной программы 
следует учитывать, что среда программирования должна поддерживать стек, размер 
которого пропорционален глубине рекурсии. При решении сложных задач необхо- 
димый для этого стека объем памяти может заставить отказаться от использования ре- 
курсивного решения. 

Структуры данных, построенные из узлов с указателями, рекурсивны изначаль- 
но. Например, определение связных списков в главе 3 (определение 3.3) является 
рекурсивным. Следовательно, рекурсивные программы предоставляют естественные 
реализации для многих часто используемых функций, работающих с такими структу- 
рами данных. Программа 5.5 содержит четыре примера. Подобные реализации в кни- 
ге используются часто, в основном потому, что их гораздо проще понять, чем их не- 
рекурсивные аналоги. Однако, рекурсивные программы, подобные программе 5.5, 
следует использовать обдуманно при обработке очень больших списков, поскольку 
глубина рекурсии может быть пропорциональна длине списков и, соответственно, 
требуемый для рекурсивного стека объем памяти может превысить допустимые пре- 
делы. 

Программа 5.5 Примеры рекурсивных функций для связных списков 

Эти рекурсивные функции для выполнения простых задач обработки списков легко 
выразить, но они могут быть бесполезны для очень больших списков, поскольку 
глубина рекурсии может быть пропорциональна длине списка. 

Первая функция соипі подсчитывает количество узлов в списке. Вторая, Ггаѵегзе, 
вызывает функцию ѵізіі для каждого узла списка, с начала до конца. Обе функции 
легко реализуются с помощью цикла Гог или жЫІе. Третья функция ігаѵегзеВ не имеет 
простого итеративного аналога. Она вызывает функцию ѵізіі для каждого узла списка, 
но в обратном порядке. 

Четвертая функция гетоѵе удаляет из списка все узлы с заданным значением 
элемента. Основа реализации этой функции — изменение связи х = х->пех! в узле, 
предшествующем удаляемому, что возможно благодаря использованию параметра 
ссылки. Структурные изменения для каждой итерации цикла іѵЫІе совпадают с 
показанными на рис. 3.3, в данном случае и х, и ( ссылаются на один и тот же узел. 

іп’Ь соип-Ь(1іпк х) 

{ 

(х = 0) ге^Ьигп 0; 
гѳЪигп 1 + соипѣ (х^пехѣ) ; 

} 
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ѵоісі ѣгаѵегзе (Ііпк Ь , ѵоісі ѵізі'Ь (Ііпк) ) 

{ 

іі: (Ь == 0) геіигп; 
ѵізі-Ь(Ь) ; 

ѣгаѵегзе (Ь-^пехЪ, ѵізі-Ь) ; 

} 

ѵоісі ЪгаѵегзеК(1іпк Ь, ѵоісі ѵізіі: (Ііпк) ) 

{ 

іі: (Ь == 0) геЪигп; 

ЪгаѵегзеК (Ь->пехѣ, ѵізі'Ь) ; 
ѵізіі: (Ъ) ; 

} 

ѵоісі гетоѵе(1іпк$ х, Нет ѵ) 

{ 

ѵЬіІе (х ! = 0 && х->ійет == ѵ) 

{ Ііпк Ь = х; х = х->пехі:; сіеПІе Ъ; } 
і^ (х != 0) гетоѵе (х->пехЪ, ѵ) ; 

} 


Некоторые среды программирования автоматически выявляют и исключают лис- 
товую (оконечную) рекурсию (іаіі гесигзіоп); когда последним действием функции явля- 
ется рекурсивный вызов, увеличение глубины рекурсии вовсе не обязательно. Это 
усовершенствование эффективно преобразовало бы функции подсчета, обхода и уда- 
ления, используемые в программе 5.5 в циклы, но оно не применимо к функции об- 
хода в обратном направлении. 

В разделах 5.2 и 5.3 рассматриваются два семейства рекурсивных алгоритмов, 
представляющие важные случаи вычислений. Затем, в разделах 5.4— 5.7 будут иссле- 
доваться рекурсивные структуры данных, служащие основой для большой группы 
алгоритмов. 

Упражнения 

>5.1 Напишите рекурсивную программу для вычисления 1§(УѴІ). 

5.2 Измените программу 5.1 для вычисления УѴ! тоб Л/, чтобы переполнение боль- 
ше не играло никакой роли. Попытайтесь выполнить программу для М = 997 и 
УѴ = ІО 3 , ІО 4 , ІО 5 и ІО 6 , чтобы увидеть, как используемая система программирова- 
ния обрабатывает рекурсивные вызовы с большой глубиной вложенности. 

> 5.3 Приведите последовательности значений аргументов, получаемые в результате 
вызова программы 5.2 для каждого из целых чисел от 1 до 9. 

• 5.4 Найдите значение УѴ < ІО 6 , при котором программа 5.2 выполняет максималь- 
ное количество рекурсивных вызовов. 

> 5.5 Создайте нерекурсивную реализацию алгоритма Эвклида. 

> 5.6 Приведите рисунок, соответствующий рис. 5.2, для результата выполнения ал- 
горитма Эвклида применительно к числам 89 и 55. 

о 5.7 Укажите глубину рекурсии алгоритма Эвклида при вводе двух последователь- 
ных чисел Фибоначчи (/> и Гн+\). 

> 5.8 Приведите рисунок, соответствующий рис. 5.3, для результата оценки префик- 
сного выражения в случае ввода + * * 12 12 12 144 . 
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5.9 Создайте рекурсивную программу для оценки постфиксных выражений. 

5.10 Создайте рекурсивную программу для оценки инфиксных выражений. Мо- 
жете считать, что операнды всегда заключаются в круглые скобки. 

о 5.11 Создайте рекурсивную программу, которая преобразует корневые выраже- 
ния в постфиксные. 

о 5.12 Создайте рекурсивную программу, которая преобразует постфиксные выра- 
жения в инфиксные. 

5.13 Создайте рекурсивную программу для решения задачи Иосифа Флавия 
(І 08 ерЬи 8 ) (см. раздел 3.3). 

5.14 Создайте рекурсивную программу, которая удаляет конечный узел из связ- 
ного списка. 

о 5.15 Создайте рекурсивную программу для изменения на обратный порядка сле- 
дования узлов в связном списке (см. программу 3.7). Совет: используйте глобаль- 
ную переменную. 

5.2 Разделяй и властвуй 

Во множестве рассматриваемых в книге программ используется два рекурсивных 
вызова, каждый из которых работает приблизительно с половиной входных данных. 
Эта рекурсивная схема — вероятно, наиболее важный случай хорошо известного ме- 
тода "разделяй и властвуй " разработки алгоритмов, который служит основой для важ- 
нейших алгоритмов. 

Давайте в качестве примера рассмотрим задачу отыскания максимального из N 
элементов, сохраненных в массиве а[0], ..., а[ІЧ-1]. Эту задачу можно легко выпол- 
нить за один проход массива демонстрируется в примере: 

±ог (Ъ = а[0], і = 1; і < И; і++) 
і€ (а [і] > Ь = а [і] ; 

Рекурсивное решение типа "разделяй и властвуй", приведенное в программе 5.6 — 
еще один простой (хотя и совершенно иной) алгоритм решения той же задачи; он 
использовался только с целью иллюстрации концепции "разделяй и властвуй". 

Программа 5.6 Применение алгоритма "разделяй и властвуй" 
для отыскания максимума 

Эта функция делит массив а[І], ..., а[г] на массивы а[І] а[т] и а[т+1] а[г], 

находит максимальные элементы в обоих частях (рекурсивно) и возвращает больший 
из них в качестве максимального элемента всего массива. В программе 
предполагается, что Нет — тип первого класса, для которого операция > определена. 
Если размер массива является четным числом, обе части имеют одинаковые размеры, 
если же нечетным, эти размеры различаются на 1. 

Нет тах(Иет а [ ] , іпЪ 1, іпЪ г) 

{ 

(1 == г) геіигп а[1] ; 
іпѣ т = (1+г)/2; 

Нет и = тах(а, 1, т) ; 

Нет ѵ = тах (а , т+1, г); 

И (и > ѵ) геЪигп и; еізе геЪигп ѵ; 


} 
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Чаще всего подход "разделяй и властвуй" исполь- 
зуют из-за того, что он обеспечивает более быстрые 
решения, чем простые итерационные алгоритмы (в 
конце главы рассматриваются несколько примеров 
таких алгоритмов); кроме того, данный подход зас- 
луживает подробного исследования, поскольку он 
способствует пониманию сущности определенных 
базовых вычислений. 

На рис. 5.4 показаны рекурсивные вызовы, 
выполняемые при запуске программы 5.6 приме- 
нительно к примеру массива. Структура програм- 
мы кажется сложной, но обычно об этом можно 
не беспокоиться — для проверки программы мы 
полагаемся на метод математической индукции, а 
для анализа ее производительности используется ре- 
куррентное соотношение. 

Как обычно, сам код предполагает проверку пра- 
вильности вычисления методом индукции: 

■ Он явно и немедленно отыскивает макси- 
мальный элемент массива, размер которого 
равен 1. 

■ Для N > 1 код разделяет массив на два, размер 
каждого из которых меньше N, исходя из ин- 
дуктивного предложения, находит максималь- 
ные элементы в обеих частях и возвращает 
большее из этих двух значений, которое дол- 
жно быть максимальным значением для всего 
массива. 


0123456789 10 

т I ЫУЕХАМРЬЕ 


У тах(0, 10) 

У тах(0, 5) 

Т тах(0, 2) 

Т тах(0, 1) 

Т шах (0, 0) 

I тах(1, 1) 

N тах(2, 2) 

У тах(3, 5) 

У тах(3, 4) 

У тах(3, 3) 

Е тах(4, 4) 

X тах(5, 5) 

Р тах(6, 10) 

Р тах(6, 8) 

М тах(6, 7) 

А тах(6, 6) 

И тах(7, 7) 

Р тах(8, 8) 

Ь тах(9, 10) 

Ь тах(9, 9) 

Е тах(10, 10) 

РИСУНОК 5.4 РЕКУРСИВНЫЙ 
ПОДХОД К РЕШЕНИЮ ЗАДАЧИ 
ОТЫСКАНИЯ МАКСИМУМА 

Эта последовательность вызовов 
функций иллюстрирует динамику 
отыскания максимума с помощью 
рекурсивного алгоритма . 


Более того, рекурсивную структуру программы 
можно использовать для исследования характеристик ее производительности. 


Лемма 5 Л Рекурсивная функция, которая разделяет задачу размерности N на две не- 
зависимые (непустые) решающие ее части, рекурсивно вызывает себя менее N раз. 

Если одна часть имеет размерность к , а другая — N—к 9 то общее количество ре- 
курсивных вызовов используемой функции равно 

Тц = т к + 7Ѵ-* + 1 , при А' > 1 ; Т\ = О 

Решение = N — 1 можно получить непосредственно методом индукции. Если 
сумма размеров частей меньше УѴ, доказательство того, что количество вызовов 
меньше чем N — 1 вытекает из тех же рассуждений по методу индукции. Анало- 
гичными рассуждениями можно подтвердить справедливость данного утверждения 
и для общего случая (см. упражнение 5.20). 
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Программа 5.6 — типичный пример для многих алгоритмов типа "разделяй и вла- 
ствуй", имеющих совершенно одинаковую рекурсивную структуру, но другие приме- 
ры могут отличаться от приведенного в двух аспектах. Во-первых, программа 5.6 вы- 
полняет одинаковый объем вычислений для каждого вызова функции, и поэтому ее 
общее время выполнения линейно связано с количеством вызовов. Как будет пока- 
зано, другие алгоритмы типа "разделяй и властвуй" могут выполнять различный 


объем вычислений для различных вызовов функций, и поэтому для определения об- 
щего времени выполнения требуется более сложный анализ. Время выполнения та- 
ких алгоритмов зависит от конкретного способа разделения на части. Во-вторых, 
программа 5.6 — типичный пример алгоритмов типа 


"разделяй и властвуй", для которых сумма размеров 
частей равна общей размерности. Другие алгоритмы 
типа "разделяй и властвуй" могут разделять задачу 
на части, сумма размеров которых меньше или 
больше размерности всей задачи. Эти алгоритмы все 
же относятся к рекурсивным алгоритмам типа "раз- 
деляй и властвуй", поскольку каждая часть меньше 
целого, но анализировать их труднее, нежели про- 
грамму 5.6. Мы подробно рассмотрим процесс ана- 
лиза таких типов алгоритмов, как только столкнемся 
с ними. 

Например, алгоритм бинарного поиска, приве- 
денный в разделе 2.6, является алгоритмом типа 
"разделяй и властвуй", который делит задачу попо- 
лам, а затем работает только с одной из этих поло- 
вин. Рекурсивная реализация бинарного поиска ис- 
следуется в главе 12. 

На рис. 5.5 показано содержимое внутреннего 
стека, поддерживаемого средой программирования 
для реализации вычислений, изображенных на рис. 
5.4. Приведенная на рисунке модель является идеа- 
лизированной, но она позволяет взглянуть на струк- 
туру вычисления по методу "разделяй и властвуй" 
изнутри. Если программа имеет два рекурсивных 
вызова, фактический внутренний стек содержит 
одну запись, соответствующую первому вызову фун- 
кции во время выполнения (эта запись содержит 
значения аргументов, локальные переменные и ад- 
рес возврата), и аналогичную запись, соответствую- 
щую второму вызову функции во время ее выполне- 
ния. Альтернатива продемонстрированному на рис. 
5.5 подходу — помещение в стек сразу двух значений 
с сохранением всех подстеков, которые должны 
явно создаваться в стеке. Такая организация прояс- 
няет структуру вычислений и закладывает основу 
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РИСУНОК 5.5 ПРИМЕР ДИНАМИКИ 
ВНУТРЕННЕГО СТЕКА 

Эта последовательность — 
идеализированное представление 
содержимого внутреннего стека во 
время вычисления примера из рис. 
5.4. Обработка начинается с левого 
и правого индексов всего 
подмассива в стеке. Каждая 
строка представляет результат 
помещения в стек двух индексов и , 
если они не равны, проталкивания 
четырех индексов, которые 
ограничивают левый и правый 
подмасивы после разделения 
помещенного подмассива на две 
части. На практике вместо 
выполнения упомянутых действий 
система хранит в стеке адреса 
возврата и локальные переменные, 
тем не менее, приведенная модель 
вполне адекватно описывает 
вычисление. 
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для более общих вычислительных схем, подобных исследуемым в разделах 5.6 и 5.8. 

На рис. 5.6 показана структура алгоритма "разделяй и властвуй" для поиска мак- 
симального значения. Эта структура является рекурсивной: верхний узел содержит 
размер входного массива; структура левого подмассива изображена слева, а право- 
го — справа. Формальное определение и описание структур деревьев такого типа 
можно найти в разделах 5.4 и 5.5. Они облегчают понимание структуры любых про- 
грамм, в которых используются вложенные вызовы функций — в частности, рекур- 
сивных программ. На рис. 5.6 показано также 
это же дерево, но с узлами, помеченными воз- 
вращаемым значением из соответствующего 
обращения к функции. Процесс создания явно 
связанных структур, которые представляют де- 
ревья, подобные этому, рассматривается в раз- 
деле 5.7. 

Ни одно рассмотрение рекурсии не было 
бы полным без рассмотрения старинной зада- 
ны о ханойских башнях. Имеется три стержня и N 
дисков, которые помещаются на трех стерж- 
нях. Диски различаются размерами и вначале 
размещаются на одном из стержней от самого 
большого (диск АО внизу до самого маленько- 
го (диск 1) вверху. Задача состоит в перемеще- 
нии дисков на соседнюю позицию (стержень) 
при соблюдении следующих правил: (і) одно- 
временно можно перемещать только один 
диск; и (іі) ни один диск не может быть поме- 
щен поверх диска меньшего размера. Легенда 
гласит, что конец света наступит раньше, чем 

группа монахов справится с задачей размеще- рисУНОК 5.6 РЕКУРСИВНАЯ СТРУКТУРА 
ния 40 золотых дисков на трех алмазных стер- АЛГОРИТМА ПОИСКА МАКСИМУМА. 





жнях. 

Программа 5.7 предоставляет рекурсивное 
решение этой задачи. Программа указывает 
диск, который должен быть сдвинут на каждом 
шагу, и направление его перемещения (+ озна- 
чает перемещение на один стержень вправо с 
переходом к крайнему слева стержню при до- 
стижении крайнего справа стержня, а — озна- 
чает перемещение на один стержень влево с 
переходом к крайнему справа стержню при до- 
стижении крайнего слева стержня). Рекурсия 
основывается на следующей идее: для переме- 
щения N дисков вправо на один стержень вна- 
чале верхние N— 1 дисков нужно переместить 


Алгоритм "разделяй и властвуй " 
разделяет представляющий задачу 
массив, размер которого равен 11, на 
массивы с размерами би 5, массив с 
размером 6 — на два массива с 
размерами 3 и т.д., пока не будет получен 
массив с размером 1 (верхний). Каждая 
окружность на этих схемах 
представляет вызов рекурсивной функции 
для расположенных непосредственно под 
ней узлов, связанных с ней линиями 
(квадраты представляют вызовы, для 
которых рекурсия завершается). На 
схеме в центре показано значение индекса 
в середине файла, который использовался 
для выполнения разделения; на нижней 


на один стержень влево, затем переместить схеме показано возвращаемое значение. 
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диск УѴ на один стержень вправо, после чего еще раз переместить УѴ — 1 дисков на 
один стержень влево (поверх диска УѴ). В правильности работы этого решения мож- 
но удостовериться методом индукции. На рис. 5.7 показаны перемещения для УѴ = 5 
и рекурсивные вызовы для УѴ = 3. Структура алгоритма достаточно очевидна; давай- 
те рассмотрим его подробно. 

Программа 5.7 Решение задачи о ханойских башнях 

Мы сдвигаем башню из дисков вправо, сдвигая (рекурсивно) все диски, кроме 
нижнего, влево, затем сдвигаем нижний диск вправо, после чего перемещаем 
(рекурсивно) башню поверх нижнего диска. 

ѵоісі Ьапоі(іггЬ N , іпѣ сі) 

{ 

(И == 0) ге^Ьигп; 

Ъапоі (N-1 , ~сі) ; 

8Ьі^ѣ(Ы, сі) ; 

Ьапоі (N-1 , -сі) ; 

> 


Во-первых, рекурсивная структура этого решения немедленно диктует количество 
необходимых перемещений. 

Лемма 5.2 Рекурсивный алгоритм "разделяй и властвуй " решения задачи о ханойских 
башнях дает решение, приводящее к 2^—1 перемещениям . 

Как обычно, из кода немедленно следует, что количество перемещений удовлет- 
воряет условию рекуррентности. В данном случае количество перемещений дис- 
ков, удовлетворяющее условию рекуррентности, определяется формулой, анало- 
гичной формуле 2.5: 

Тн = 27Ѵі + Ь при УѴ > 2, Т\ = 1. 

Предсказанный результат можно непосредственно проверить методом индукции: 
мы имеем Г(1) = 2 1 — 1 = 1; и, если Т(к) = 2 к - 1 для к < УѴ, то 
Г(УѴ) = 2 (2 ЛМ — 1) + 1 = 2 N — 1. 

Если монахи перемещают по одному диску в секунду, для завершения работы им 
потребуется, по меньшей мере, 348 столетий (см. рис. 2.1), разумеется, если они не 
допускают ошибок. Скорее всего, конец света может наступить даже позже этого сро- 
ка, поскольку монахи никак не смогли бы воспользоваться программой 5.7 для бы- 
строго выяснения, какой диск нужно перемещать следующим. А теперь давайте про- 
анализируем метод, который ведет к простому (не рекурсивному) решению, 
упрощающему принятие решения. Хоть и не хочется оставлять бедных монахов в не- 
ведении, однако этот метод имеет большое значение для множества важных приме- 
няемых на практике алгоритмов. 

Чтобы понять решение задачи о ханойских башнях, давайте рассмотрим простую 
задачу рисования меток на линейке. Каждые 1/2 дюйма на линейке отмечаются чер- 
точкой, каждые 1/4 дюйма отмечаются несколько более короткими черточками, 1/8 
дюйма — еще более короткими и т.д. Задача состоит в создании программы для ри- 
сования этих меток при любом заданном разрешении, при условии, что в нашем рас- 
поряжении имеется процедура шагк(х, Ь) для рисования меток высотой Ь условных 
единиц в позиции х. 
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РИСУНОК 5.7 ХАНОИСКИЕ 
БАШНИ 

На этой схеме отображено 
решение задачи о ханойских 
башнях для случая с пятью 
дисками. Мы сдвигаем 
четыре верхних диска влево 
на одну позицию (левый 
столбец), затем 
перемещаем диск 5 вправо, 
а затем верхние четыре 
диска перемещаем влево на 
одну позицию (правый 
столбец). Приведенная 
ниже последовательность 
вызовов функций образует 
вычисление для трех 
дисков. Вычисленная 
последовательность 
перемещений — +1 -2 +1 
+3 +1 -2 +1 появляется в 
решении четыре раза (для 
примера показано первых 
семь перемещений). 

ЪапоіО, +1) 

Ьапоі(2, -1) 
ЬахюИІ, +1) 
Ьапоі(0, -1) 
зЬ±ЁЪ(1 , +1) 
Ьапоі(0, -1) 
бШХ(2, - 1 ) 

ЪаііоНі, +і) 

Ьапоі(0, -1) 
зЬі^г(1, +1) 
ЪапоКО, -1) 
зЬі іШ, +і) 
Ъапоі(2, -1) 
ЬапоКі, +1) 
Ь.апоі(0, -1) 
бЪШ(1, +1) 
Ь.апоі(0, -1) 
зМШ2, -і) 
ЬадоИі, +1) 
ЬапоИО, -1) 
вЫ±Х(1, + 1 ) 
ЬапоИО, -1) 
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Если требуемое разрешение равно 1/2" дюймов, 
давайте изменим масштаб, чтобы задача состояла в 
помещении метки в каждой точке в интервале от 0 до 
2", за исключением конечных точек. Таким образом, 
средняя метка должна иметь высоту п условных еди- 
ниц, метки в середине левой и правой половин долж- 
ны иметь высоту п - 1 условных единиц и т.д. Про- 
грамма 5.8 — простой алгоритм "разделяй и властвуй" 
для выполнения этой задачи; работа данного алгорит- 
ма применительно к небольшому примеру проиллюс- 
трирована на рис. 5.8. С точки зрения рекурсии в ос- 
нове метода лежит следующая идея. Для помещения 
меток на интервале, последний вначале делится на две 
равные половины. Затем создаются метки (более ко- 
роткие) в левой половине (рекурсивно), помещается 
длинная метка в середине и рисуются метки (более 
короткие) в правой половине (рекурсивно). Если го- 
ворить об итерации, рис. 5.8 иллюстрирует, что с помо- 
щью этого метода метки создаются по порядку, слева 
направо — фокус заключается в вычислении длин ин- 
тервалов. Дерево рекурсии, приведенное на рисунке, 
помогает понять вычисление: просматривая его сверху 
вниз, мы видим, что длина меток уменьшается на 1 для 
каждого вызова рекурсивной функции. Если просмат- 
ривать дерево в поперечном направлении, мы получа- 
ем метки в том порядке, в каком они рисуются, по- 
скольку для каждого данного узла вначале рисуются 
метки, связанные с вызовом функции слева, затем 
метка, связанная с данным узлом, а затем метки, свя- 
занные с вызовом функции справа. 

Программа 5.8 Применение алгоритма "разделяй и 
властвуй" для рисования линейки 

Для рисования меток на линейке мы рисуем метки в левой 
половине, затем самую длинную метку в середине, а затем 
метки в правой половине. Эта программа предназначена для 
использования со значением г-1 равным степени 2 — 
свойство, сохраняемое в ее рекурсивных вызовах (см. 
упражнение 5.27). 

ѵоісі ги1е(іпѣ 1, іігЬ г, іігЬ Ъ) 

{ іпЪ т = (1+г)/2; 

(Ь > 0) 

{ 

ги1е(1, т, Ъ-1) ; 
та г к (т, Ъ) ; 
ги1е(т, г, Ь-1) ; 

} 



ги1е(0, 8, 3) 
ги1е(0, 4, 2) 
т1е(0, 2, 1) 
ги1е(0, 1, 0) 
тахк(1, 1) 
ги1е(1, 2, 0) 
тахк(2, 2) 
ги1е(2, 4, 1) 
ги1е(2, 3, 0) 
тагк(3, 1) 
ги1е(3, 4, 0) 
тагк(4, 3) 
ги1е(4, 8, 2) 
ги1е(4, 6, 1) 
ги1е(4, 5, 0) 
тахк(5, 1) 
ги1е(5, 6, 0) 
тагкСб, 2) 
ги1е(6, 8, 1) 
ги1е(6, 7, 0) 
тахк(7, 1) 
пйе(7, 8, 0) 

РИСУНОК 5.8 ВЫЗОВЫ 
ФУНКЦИЙ, РИСУЮЩИХ 
ЛИНЕЙКИ 

Эта последовательность вызовов 
функций составляет вычисление 
для рисования линейки длиной 8, 
в результате чего наносятся 
метки 1, 2, I, 3, 1, 2 и 1. 


} 
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Сразу видно, что последовательность длин в точности совпадает с последователь- 
ностью перемещаемых дисков при решении задачи о ханойских башнях. Действитель- 


но, простым доказательством их идентичности является идентичность рекурсивных 
программ. Таким образом, применив другой подход, наши монахи могли воспользо- 


ваться метками на линейке для определения диска, который требуется переместить. 

Более того, и решение задачи о ханойских башнях в программе 5.7, и программа 

рисования линейки в программе 5.8 являются вариантами общей 

схемы "разделяй и властвуй", представленной программой 5.6. 

Все три программы решают задачу размера 2", разделяя ее на две о о о о і 

задачи размера 2 Л ~ 1 . При отыскании максимума время получения о о о і о і 

решения линейно связано с размером входного массива; при о о о і і 

Г Г 0 0 1 0 0 2 

рисовании линейки и при решении задачи о ханойских башнях о о і о і 

время линейно связано с размером выходного массива. Обычно о о і і о і 


считается, что время выполнения задачи о ханойских башнях 
определяется экспоненциальной зависимостью, поскольку объем 


0 0 111 

0 1 0 0 0 з 

0 10 0 1 


задачи измеряется количеством дисков, т.е. п. 

Рисование меток на линейке с помощью рекурсивной про- 
граммы не представляет особой сложности, но не существует ли 
более простого способа вычисления длины /-ой метки для любо- 
го данного значения /? На рис. 5.9 показан еще один простой 
вычислительный процесс, дающий ответ на этот вопрос, /-ый 
номер, выводимый и программой решения задачи о ханойских 
башнях, и программой рисования линейки, — ни что иное как 
количество оконечных 0-вых разрядов в двоичном представле- 
нии /. Это утверждение можно доказать методом индукции по 
соответствию с формулировкой метода "разделяй и властвуй" для 
процесса вывода таблицы «-разрядных чисел: достаточно напеча- 
тать таблицу (п - 1)-разрядных чисел, каждому из которых пред- 
шествует 0-й разряд, а затем напечатать таблицу (« - 1)-разряд- 
ных чисел, каждому из которых предшествует 1-й разряд (см. 
упражнение 5.25). 

Применительно к задаче о ханойских башнях использование 
соответствия с «-разрядными числами — простой алгоритм реше- 
ния задачи. Можно смещать стоику дисков на один стержень 
вправо, до завершения повторяя следующие два шага: 

■ Перемещение маленького диска вправо, если « нечетно 
(влево, если оно четно). 

■ Выполнение единственного разрешенного перемещения, 
не затрагивающего маленький диск. 


0 10 10 1 
0 10 11 
0 110 0 2 
0 110 1 
0 1110 1 
0 1111 
1 0 0 0 0 4 

1 0 0 0 1 

10 0 10 1 

10 0 11 

10 10 0 2 

10 10 1 

10 110 1 
10 111 
1 1 0 0 0 3 

110 0 1 
110 10 1 
110 11 
1110 0 2 
1110 1 
11110 1 
11111 

РИСУНОК 5.9 

БИНАРНЫЙ 

ПОДСЧЕТ И 

ФУНКЦИЯ 

РИСОВАНИЯ 

ЛИНЕЙКИ 

Вычисление функции 
рисования линейки 


То есть, после перемещения маленького диска, остальные два 
стержня содержат два диска, один из которых меньше другого. 
Единственное разрешенное перемещение, не затрагивающее 
маленький диск — перемещение меньшего диска поверх больше- 
го. Каждое второе перемещение затрагивает маленький диск по 


эквивалентно 
подсчету 
количества 
оконечных нулей в 
четных N- 
разрядных числах. 
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той же причине, что каждое второе число является нечетным, а каждая вторая мет- 
ка на линейке является самой короткой. Вероятно, наши монах знали этот секрет, 
поскольку трудно себе представить, как иначе они могли бы определить нужные пе- 
ремещения. 

Формальное доказательство методом индукции того, что в решении задачи о ха- 
нойских башнях каждое второе перемещение затрагивает маленький диск (все начи- 
нается и завершается такими перемещениями), весьма поучительно: Для п — 1 суще- 
ствует только одно перемещение, затрагивающее маленький диск, следовательно, 
утверждение подтверждается. При п > 1 из предположения, что утверждение справед- 
ливо для /і—1, следует его справедливость и для п. Это можно подтвердить, прибег- 
нув к следующей рекурсивной конструкции: первое решение для п ~ 1 начинается с 
перемещения маленького диска, а второе решение для п - 1 завершается перемеще- 
нием маленького диска, следовательно, решение для п начинается и завершается пе- 
ремещением маленького диска. Мы поместили перемещение, не затрагивающее 
маленький диск, между двумя перемещениями, которые его затрагивают (перемеще- 
нием, завершающим первое решение для п— 1, и перемещением, начинающим вто- 
рое решение для п — 1), следовательно, утверждение, что каждое второе перемеще- 
ние затрагивает маленький диск, подтверждается. 

Программа 5.9 представляет альтернативный способ рисования линейки, на кото- 
рый натолкнуло соответствие с двоичными числами (см. рис. 5.10). Эту версию алго- 
ритма называют восходящей (ЪоПот-ир) реализацией. Она не является рекурсивной, но 
определенно навеяна рекурсивным алгоритмом. Это соответствие между алгоритма- 
ми типа "разделяй и властвуй" и двоичными представлениями чисел часто способству- 
ет углубленному пониманию при анализе и разработке усовершенствованных версий, 
таких как восходящие подходы. Данную возможность следует учитывать, чтобы по- 
нять и, возможно, усовершенствовать каждый из исследуемых алгоритмов типа "раз- 
деляй и властвуй". 


Программа 5.9 Не рекурсивная программа для 
рисования линейки 

В противоположность программе 5.8, линейку 
можно нарисовать, вначале изобразив все метки 
длиной 1, затем все метки длиной 2 и т.д. 
Переменная 1 представляет длину меток, а 
переменная і — количество меток между двумя 
последовательными метками длиной 1. Внешний 
цикл іог увеличивает значение 1 при сохранении 
соотношения ]=2 М . Внутренний цикл Іог рисует 
все метки длиной 1. 


ѵоісі ги1ѳ(±хѵЬ 1, іпѣ г, іпѣ Ь) 


{ 


} 


^ог (іігЬ Ь = 1, з = 1; 

Ь <= Ь; з += з, -Ы-+) 
^ог (іпЪ і = 0; 1+з+і <= 

і += з+з) 

хпагк (1+з+і, 1) ; 



^ 1 1 1 1 1 1 1 

і 1 і і і і і 


1 1 » 1 1 1 

1 1 1 і_1_і 1 1 1 


» 1 1 1 1 1 1 » 1 1 1 » 1 1 

1 1 1 1 1 1 » 1 1 1 1 » 1 1 


■І.І.І.І.І.І.І. 

.і.і.і.І.і.і.і. 


-ііхіліі ІЛІ11 1 1.1 

і 1x1 іі ііхііі 1 1.і. 


РИСУНОК 5.10 РИСОВАНИЕ ЛИНЕЙКИ 
В ВОСХОДЯЩЕМ ПОРЯДКЕ 

Для рисования линейки не рекурсивным 
методом вначале рисуются все метки 
длиной 1 и пропускаются позиции , 
затем рисуются метки длиной 2 и 
пропускаются остающиеся позиции , 
затем рисуются метки длиной 3 с 
пропуском остающихся позиций и т.д. 
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Восходящий подход предполагает изменение порядка выполнения вычислений при 
рисовании линейки. На рис. 5.11 показан еще один пример, в котором порядок сле- 
дования трех вызовов функций в рекурсивной реализации изменяется. Этот пример 
отражает выполнение рекурсивного вычисления первоначально описанным способом: 


рисование средней метки, затем рисование левой по- 
ловины, а затем правой. Последовательность рисова- 
ния меток сложна, но является результатом простой 
перемены мест двух операторов в программе 5.8. Как 
будет показано в разделе 5.6, взаимосвязь между рис. 
5.8 и 5.11 сродни различию между постфиксными и 
префиксными арифметическими выражениями. 

Рисование меток в порядке, показанном на рис. 
5.8, может оказаться более предпочтительным по 
сравнению с выполнением вычислений в изменен- 
ном порядке, содержащихся в программе 5.9 и при- 
веденных на рис. 5.11, поскольку можно нарисовать 
линейку произвольной длины. Достаточно предста- 
вить себе графическое устройство, которое просто 



перемещается вдоль непрерывной ленты к следую- 
щей метке. Аналогично, при решении задачи о ха- 
нойских башнях мы ограничиваемся перемещени- 
ем дисков в требуемом порядке перемещения. 
Вообще говоря, многие рекурсивные программы 
основываются на решениях подзадач, которые дол- 
жны быть выполнены в конкретном порядке. Для 
других вычислений (например, см. программу 5.6) 
порядок решения подзадач роли не играет. Для та- 
ких вычислений единственным ограничением слу- 
жит необходимость решения подзадач перед тем, 
как можно будет решить главную задачу. Понима- 
ние того, когда можно изменять порядок вычисле- 
ния, не только служит ключом к успешной разра- 
ботке алгоритма, но и оказывает непосредственное 
практическое влияние во многих случаях. Напри- 
мер, этот вопрос исключительно важен при исследо- 
вании возможности реализации алгоритмов в парал- 
лельных процессорах. 

Восходящий подход соответствует общему мето- 
ду разработки алгоритмов, при котором задача ре- 
шается путем решения вначале элементарных под- 
задач с последующим объединением этих решений 
для получения решения несколько больших подза- 
дач и т.д., пока вся задача не будет решена. Подоб- 
ный подход можно было бы назвать подходом "объе- 
диняй и властвуй". 


гд1е(0, 8, 3) 
тагк(4, 3) 
т1е(0, 4, 2) 
тагк(2, 2) 
ги1е(0, 2, 1) 
тагк(1, 1) 
т1е(0, 1, 0) 
ги1е(1, 2, 0) 
ги1е(2, 4, 1) 
шагк(3, 1) 
т1е(2, 3, 0) 
ги1е(3, 4, 0) 
т1е(4, 8, 2) 
тагк(6, 2) 
ги1е(4, 6, 1) 
тагк(5, 1) 
т1е(4, 5, 0) 
т1е(5, 6, 0) 
т1е(6, 8, 1) 
тагк(7, 1) 
ги1е(6, 7, 0) 
т1е(7, 8, 0) 

РИСУНОК 5.11 ВЫЗОВЫ ФУНКЦИЙ 
ДЛЯ РИСОВАНИЯ ЛИНЕЙКИ 
(ВЕРСИЯ С ИСПОЛЬЗОВАНИЕМ 
ПРЯМОГО ОБХОДА) 

Эта последовательность 
отображает результат рисования 
меток перед рекурсивными 
вызовами, а не между ними. 
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Лишь небольшой шаг отделяет рисование линеек от 
рисования двумерных узоров, похожих на показанный на 
рис. 5.12. Этот рисунок иллюстрирует, как простое рекур- 
сивное описание может приводить к сложным вычислени- 
ям (см. упражнение 5.30). 

Рекурсивно определенные геометрические узоры, на- 
подобие показанного на рис. 5.12, иногда называют фрак- 
талами . При использовании более сложных примитивов 
рисования и более сложных рекурсивных функций (осо- 
бенно, включая рекурсивно определенные функции, рабо- 
тающие как с действительными значениями, так и в ком- 
плексной плоскости), можно разрабатывать поразительно 
разнообразные и сложные узоры. На рис. 5.13 приведен 
еще один пример — звезда Коха , которая определяется ре- 
курсивно следующим образом: звезда Коха 0 порядка — 
простой выступ, показанный на рис. 4.3, а звезда Коха п 
порядка — это звезда Коха порядка п - 1 , в которой каж- 
дый линейный сегмент заменен соответствующим образом 
отмасштабированной звездой 0 порядка. 

Подобно решениям задач рисования линейки и ханой- 
ских башен, эти алгоритмы линейны по отношению к ко- 
личеству шагов, но это количество связано экспоненциаль- 
ной зависимостью с максимальной глубиной рекурсии (см. 
упражнения 5.29 и 5.33). Кроме того, они могут быть не- 
посредственно связаны с подсчетом в соответствующей 
системе счисления (см. упражнение 5.34). 

Задача о ханойских башнях, рисование линейки и 
фракталы весьма занимательны, а связь с двоичным чис- 
лами поражает, однако все эти вопросы интересуют нас 
прежде всего потому, что облегчают понимание одного из 
основных методов разработки алгоритмов — деление зада- 
чи пополам и независимое решение одной или обеих по- 
ловин задачи; возможно, это — наиболее важная из подоб- 
ного рода технологий, рассматриваемых в книге. В табл. 
5.1 подробно описаны бинарный поиск и сортировка сли- 
янием, которые не только являются важными и широко 
используемыми на практике алгоритмами, но и служат ти- 
пичными примерами разработки алгоритмов типа ”разде- 
ляй и властвуй”. 

Таблица 5.1 Основные алгоритмы типа 
"разделяй и властвуй" 


& ш ® & $•: & & 

« & 
й Й й* У'. Я'; 

& «• & 38 ІЙ & ІЙ 

й* й * : Й & Ій ІЙ 

» & Ій # # Й & 

Ій ІЙ ІЙ й: :Й й & 

&і Ш ІЙ & & :•:> 

ІЙ Й & Й Й Й Лі 

%: ІЙ Й & Ій ІЙ Ж 

# Й Й ІЙ ІЙ Ій ІЙ 

Й й & & ІЙ К 

$•: й # !й ІЙ ІЙ 

& Ш ф. Й # й 

Й ?Й Й Ф :?> 

Ій іѵ! Й Й Й ІА 


ѴУ* 

;.ѵ 

З# 


$ 




щ 

й>% 


дал 

ЙЙ'Й 

ЙЙЙ:; 






,ш... 


ѵѵ 


■а*. 


Цф 


% : ІУІ 

Ш: 

Ж 

йГй: 


т 

й ;•>: 

Лі 

% : і*і 

. Й'іѵ, 


ЛѴ.'Л 

•Л- * 


ш 






. ІЙ»Л . 

8ГѴ 


м 


%ѵІІѵ 


;.у »• 

•$г 


Ж. 


ЙігхіЙ 



ІЙІ 

ІЙ 

% 

«***► 

: І? 

*х* : х 

•й-г 

Я : ; 

:-А 

Й 

Ф 

;Й; 

:<•: -х- 

Л-. V.* 


•А" 


ІЙ 

0 

ѵ.; 

ІЙ й ; 

Я 

А': 


ІЙ 

Ф 

ІЙ 

ІЙ Й 

:■:> 

ЙА 


#і 

ІЙ 

Х< 

•: : : :|х 

!‘М 

ІЙ 

і$і 

•й 

»* 

•X* 

іі 

;Х; Х ; : 

, . , 

чѵ 

М*' 

* , 

, , 

М 

.. ... 

&■: 

л\ 

» 

% 

л*: * 

.Ѵі< 

•А- ;У: 



•л* 


•V* 

М* 



■■■ * 



ѵ * 


.* - ... 


>>: 

йі 


•‘■С' 

•*А 

■У- 0 

•X* 

Хѵ 

■ф 


»: 


•А' ф. 

■:Й 


й 

:*:•: 

>>: 


Ій Й 


'& 

; ІЙ 

ІѴІ 

»: 

ІЙ 

ІЙ Й 



Й: 

Х;І 

>:> 

Ій 

:Й й: 

№ 

•••■* 

***** 




у 


:Й: 

•Й: 

0. 

т >1- 


х> 

й; йі 

л - 

•V» 


*.ѵ 

.*.* 

Л|. 

*•*♦’ 

:Х : :;Х 










Мѣ. 





•іЖ 


Л 


ЙІ*:# 


л*: ;•>; *х* 






Щф 

.ѵХѵХ 


•УУ.-.ѵУ. 'уф. 

фуу дай 

3$Н& ЙЙЙ$ 




■Ф Ф ІЙ-ІЙ ІГ *> 

- ѵ ~ ЩФ. .Ш 







■ЩФ ййй' 
■ФФЖЪШ: 

■' ХШФ • • 





РИСУНОК 5.12 ДВУМЕРНАЯ 
ФРАКТАЛЬНАЯ ЗВЕЗДА 

Этот фрактал — 
двумерная версия рис. 5. 10. 
Очерненные квадраты на 
нижнем рисунке 
подчеркивают рекурсивную 
структуру вычисления. 


Бинарный поиск (см. главы 2 и 12) и сортировка слиянием (см. главу 8) — прототипы 
алгоритмов типа "разделяй и властвуй", которые обеспечивают гарантированную 
оптимальную производительность, соответственно, поиска и сортировки. Рекуррентное 
соотношение демонстрирует сущность вычислений методом "разделяй и властвуй" для 
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каждого алгоритма. (Получение решений, приведенных 
в правом столбце, описывается в разделах 2.5 и 2.6.) 
При бинарном поиске задача делится пополам, 
выполняется одно сравнение, а затем рекурсивный 
вызов для одной из половин. При сортировке слиянием 
задача делится пополам, затем выполняется 
рекурсивная обработка обеих половин, после чего 
программа выполняет N сравнений. В книге будет 
рассматриваться множество других алгоритмов, 
разработанных с применением этих рекурсивных схем. 


рекуррентное приближенное 

соотношение решение 

БИНАРНЫЙ ПОИСК 

количество сравнений Сѵ = Су /2 + 1 1§УѴ 

СОРТИРОВКА СЛИЯНИЕМ 
количество рекурсивных 

вызовов А к = 2 Ан /2 + 1 N 

количество сравнений С/ѵ = 2С# /2 + 1 N 1§/Ѵ 


Быстрая сортировка (см. главу 7) и поиск в би- 
нарном дереве (см. главу 12) представляют важную 
вариацию базового подхода "разделяй и властвуй", 
в которой задача разделяется на подзадачи разме- 
ров к — 1 и N — к при некотором исходном значе- 
нии к , При произвольном вводе эти алгоритмы де- 
лят задачи на подзадачи, размеры которых в среднем 
вдвое меньше исходного (что имеет место при сор- 
тировке слиянием или бинарном поиске). Влияние 
упомянутого различия анализируется при рассмот- 
рении этих алгоритмов. 

Рассмотрения заслуживают также следующие ва- 




/косЬК 

2 сору {<іир 0 гііпеѣо } 

-С 

3 <ііѵ 

2 сору косЬК 
60 гоЪаІе 
2 сору косЬК 
-120 гчхЬаЪе 
2 сору косЬК 
60 гоЪаІе 
2 сору косЬК 
> і^еіео 
рор рор 

> 

0 0 тоѵеЪо 
27 81 косЬК 
О 27 тоѵеЪо 
9 81 косЬК 
О 54 тоѵеЪо 


риации основной темы: разделение на части раз- 
личных размеров, разделение более чем на две ча- 
сти, разделение на перекрывающиеся части и 
выполнение различного объема вычислений в не- 
рекурсивной части алгоритма. В общем случае ал- 
горитмы типа "разделяй и властвуй" требуют вы- 


3 81 косЬК 

0 81 тоѵе-Ьо 

1 81 косЬК 
зѣгоке 


РИСУНОК 5.13 РЕКУРСИВНАЯ 
Р05Т5СКІРТ-ПР0ГРАММА ДЛЯ 

полнения вычислении для разделения входного РИСОВАНИЯ ФРАКТАЛА КОХА 
массива на части, либо для объединения результа- Это изменение программы 

тов обработки двух независимо решенных частей РойЗсгірі, приведенной на рис. 

4.3, преобразует вывод в 

исходной задачи, либо для упрощения задачи пос- фрактал (см текст) 
ле того, как половина входного массива обработа- 
на. То есть, код может присутствовать перед, после и между двумя рекурсивными вы- 
зовами. Естественно, подобные вариации приводят к созданию более сложных 
алгоритмов, нежели бинарный поиск или сортировка слиянием, и эти алгоритмы труд- 
нее анализировать. В книге приводятся многочисленные примеры; к более сложным 
приложениям и способам анализа мы вернемся в части 8. 
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Упражнения 

5.16 Создайте рекурсивную программу, которая находит максимальный элемент 
в массиве, выполняя сравнение первого массива с максимальным элементом ос- 
тальной части массива (вычисленным рекурсивно). 

5.17 Создайте рекурсивную программу, которая находит максимальный элемент 
в связном списке. 

5.18 Модифицируйте программу "разделяй и властвуй" для отыскания максималь- 
ного элемента в массиве (программа 5.6), чтобы она делила массив размера N на 
две части, одна из которых имеет размер &=2^ І8Л ^~ 1 , а вторая — Р4— к (чтобы раз- 
мер хотя бы одной части был степенью 2). 

5.19 Нарисуйте дерево, которое соответствует рекурсивным вызовам, выполняе- 
мым программой из упражнения 5.18 при размере массива равном И. 

• 5.20 Методом индукции докажите, что количество вызовов функции, выполняе- 
мых любым алгоритмом типа "разделяй и властвуй", который делит задачу на ча- 
сти, в сумме составляющие задачу в целом, а затем решает части рекурсивно, ли- 
нейно связано с размером задачи. 

• 5.21 Докажите, что рекурсивное решение задачи о ханойских башнях (програм- 
ма 5.7) является оптимальным. То есть, покажите, что любое решение требует , по 
меньшей мере, 2^— 1 перемещений. 

> 5.22 Создайте рекурсивную программу, которая вычисляет длину /-ой метки на 
линейке с Т - 1 метками. 

•• 5.23 Исследуйте таблицы «-разрядных чисел, подобную приведенной на рис. 5.9, 
на предмет определения свойства /-го числа, определяющего направление /-го пе- 
ремещения (указанного знаковым битом на рис. 5.7) при решении задачи о ханой- 
ских башнях. 

5.24 Создайте программу, которая обеспечивает решение задачи о ханойских баш- 
нях путем заполнения массива, содержащего все перемещения, как сделано в про- 
грамме 5.9. 

о 5.25 Создайте рекурсивную программу, которая заполняет массив размера я-на- 
Т нулями и единицами таким образом, чтобы массив представлял все «-разрядные 
числа, как показано на рис. 5.9. 

5.26 Отобразите результаты использования рекурсивной программы рисования ли- 
нейки (программы 5.8) для следующих значений аргументов: ги1е(0, 11, 4), ги1е(4, 

20, 4) и ги1е(7, 30, 5). 

5.27 Докажите следующее свойство программы рисования линейки (программы 
5.8): если разность между ее первыми двумя аргументами является степенью 2, то 
оба ее рекурсивных вызова также обладают этим свойством. 

о 5.28 Создайте функцию, которая эффективно вычисляет количество оконечных 
нулей в двоичном представлении целого числа. 

о 5.29 Сколько квадратов изображено на рис. 5.12 (включая и те, которые скрыты 
большими квадратами)? 

о 5.30 Создайте рекурсивную программу на С++, результатом которой будет 
Ро$1$сгірі-программа в форме списка вызовов функций х у г Ьох, обеспечивающая 
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отображение нижнего рисунка рис. 5.12; функция Ьох рисует квадрат размера 
г-на-г в точке с координатами (х,у). Реализуйте функцию Ьох в виде команд 
Ро$1$сгірІ (см. раздел 4.3). 

5.31 Создайте восходящую нерекурсивную программу (аналогичную программе 
5.9), которая обеспечивает отображение верхнего рисунка рис. 5.12, как описано 
в упражнении 5.30. 

• 5.32 Создайте программу Ро$1$сгірі, обеспечивающую рисование нижней части 
рис. 5.12. 

> 5.33 Сколько линейных сегментов содержит звезда Коха и-го порядка? 

•• 5.34 Рисование звезды Коха л-го порядка сводится к выполнению последователь- 
ности команд типа "повернуть на а градусов, затем нарисовать сегмент линии 
длиной 1/3 Л ." Установите соответствие с системами счисления, позволяющее рисо- 
вать звезду путем увеличения значения счетчика и последующего вычисления на 
базе этого значения угла а. 

• 5.35 Модифицируйте программу рисования звезды Коха, приведенную на рис. 
5.13, для создания другого фрактала, основывающегося на фигуре, состоящей из 
5 линий нулевого порядка, вычерчиваемых путем смещения на одну условную 
единицу в восточном, северном, восточном, южном и восточном направлениях 
(см. рис. 4.3). 

5.36 Создайте рекурсивную функцию типа "разделяй и властвуй" для рисования 
аппроксимации сегмента линии в пространстве целочисленных координат для за- 
данных конечных точек. Примите, что координаты изменяются в интервале от 0 
до М. Совет : вначале вычертите точку вблизи середины сегмента. 

5.3 Динамическое программирование 

Главная особенность алгоритмов типа "разделяй и властвуй", рассмотренных нами 
в разделе 5.2, — разделение ими задачи на независимые подзадачи. Когда подзадачи 
не являются независимыми, ситуация усложняется, в первую очередь потому, что не- 
посредственная рекурсивная реализация даже простейших алгоритмов этого типа 
может требовать неприемлемо больших затрат времени. В этом разделе рассматри- 
вается систематический подход для избежания этой опасности в некоторых случаях. 

Например, программа 5.10 — непосредственная рекурсивная реализация рекур- 
рентного соотношения, определяющего числа Фибоначчи (см. раздел 3.3). Не исполь- 
зуйте эту программу — она весьма неэффективна. Действительно, количество рекур- 
сивных вызовов для вычисления /> равно /дч-ь Но приближенно равно ф где 
ф ~ 1,618 — золотая пропорция. Как это ни удивительно, но для программы 5.10 вре- 
мя этого элементарного вычисления определяется экспоненциальной зависимостью. Ри- 
сунок 5.14, на котором приведены рекурсивные вызовы для небольшого примера, 
весьма наглядно демонстрирует требуемый объем повторных вычислений. 

И напротив, можно легко вычислить первые N чисел Фибоначчи за время, пропор- 
циональное значению N. используя следующий массив: 

Г[0] = 0; Г[1] = 1; 

Гог (і = 2; і <= И; і++ 

Г[і] = Г[і-1] + Г[і-2] ; 
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РИСУНОК 5.14 СТРУКТУРА РЕКУРСИВНОГО АЛГОРИТМА ДЛЯ ВЫЧИСЛЕНИЯ ЧИСЕЛ ФИБОНАЧЧИ 

Схема рекурсивных вызовов для вычисления Р 8 по стандартному рекурсивному алгоритму 
иллюстрирует , как рекурсия с перекрывающимися подзадачами может приводить к 
экспоненциальному возрастанию затрат. В данном случае второй рекурсивный вызов игнорирует 
вычисление, выполненное во время первого вызова, что приводит к значительным повторным 
вычислениям, поскольку эффект нарастает в геометрической прогрессии с увеличением количества 
рекурсивных вызовов. Рекурсивные вызовы для вычисления Р 6 — 8 (отраженные в правом поддереве 
корня и в левом поддереве левого поддерева корня) показаны ниже. 

Программа 5.10 Числа Фибоначчи (рекурсивная реализация) 

Эта программа, хотя она выглядит компактно и изящно, 
неприменима на практике, поскольку время вычисления Г ы 
экспоненциально зависит от N. Время вычисления Р/ѵ+і в 0 * 1,6 
раз больше времени вычисления Гн. Например, поскольку ф 9 > 60, 
если для вычисления Г м компьютеру требуется около секунды, то 
для вычисления Гн+д потребуется более минуты, а для вычисления 
Г/ѵ+ 18 — более часа. 

іпѣ Г(іпѣ і) 

{ 

і* (і < 1) геѣигп о; 
і* (і == 1) геѣигп 1; 
геѣигп Г(і-1) + Г(і-2) ; 

} 


Числа возрастают экспоненциально, поэтому размер мас- 
сива невелик — например, Р 4 $ = 1836311903 — наибольшее 
число Фибоначчи, которое может быть представлено 32-раз- 
рядным целым, поэтому достаточно использовать массив с 
46 элементами. 

Этот подход предоставляет непосредственный способ по- 
лучения численных решений для любых рекуррентных соот- 
ношений. В случае с числами Фибоначчи можно даже обойтись без массива и огра- 
ничиться только первыми двумя значениями (см. упражнение 5.37); для многих других 
часто встречающихся рекуррентных соотношений (см., например, упражнение 5.40) 
необходимо поддерживать массив, хранящий все известные значения. 

Рекуррентное соотношение — это рекурсивная функция с целочисленными зна- 
чениями. Рассуждения, приведенные в предыдущем абзаце, подсказывают, что любую 
такую функцию можно приближенно вычислить, вычисляя все значения функции, 
начиная с наименьшего, используя на каждом шаге ранее вычисленные значения для 
подсчета текущего значения. Эта технология называется восходящим динамическим про- 


8 Р(6) 

Б Р(5) 

3 РС4) 

2 Е(3) 
1Г(2) 
1Г(1) 
0Г(0) 
1Г(1) 

1 Р(2) 
1Р(1) 
0Р(0) 

2 Р(3) 

1 Р(2) 

1 Р(1) 
0Г(0) 
1Р(1) 

3 Р(4) 

2 Р(3) 

1 Р(2) 

1 Г<1) 

О Р(0) 

1 Р(1) 

1 Р(2) 

1Р(1) 

0Г(0) 
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граммированием (Ьаііот-ир йупатіс ргоугаттіщ) . Она приме- 
нима к любому рекурсивному вычислению при условии , что 
мы можем себе позволить хранить все ранее вычисленные 
значения. Такая технология разработки алгоритмов ус- 
пешно используется для решения широкого круга задач. 

Поэтому следует уделить внимание простой технологии, 
которая может изменить зависимость времени выполне- 
ния алгоритма от значения аргументов с экспоненциаль- 
ной на линейную! 

Нисходящее динамическое программирование (Іор-сІо\ѵп 
дупатіс ргоууаттіпу) — еще более простая технология, ко- 
торая позволяет автоматически выполнять рекурсивные 
функции при том же (или меньшем) количестве итераций, 
что и восходящее динамическое программирование. При 
этом рекурсивная программа используется для сохранения 
каждого вычисленного ею (в качестве заключительного 
действия) значения и для проверки сохраненных значений 
во избежание повторного вычисления любого из них (в 
качестве первого действия). Программа 5.11 — механичес- 
ки измененная программа 5.10, в которой за счет приме- 
нения нисходящего динамического программирования до- 
стигается снижение времени выполнения — его 
зависимость от размера входного массива становится ли- 
нейной. Рисунок 5.15 служит иллюстрацией радикального 
уменьшения количества рекурсивных вызовов, достигнутого посредством этого про- 
стого автоматического изменения. Иногда нисходящее динамическое программиро- 
вание называют также мемуаризацией (тетоііаМоп). 

Программа 5.11 Числа Фибоначчи (динамическое программирование) 

Сохранение вычисляемых значений в статическом массиве (элементы которого в С++ 
инициализируются 0) явным образом исключает любые повторные вычисления. Эта 
программа вычисляет Р ы за время, пропорциональное Л/, что разительно отличается от 
времени 0(ф ы ), которое требуется для вычисления в программе 5. 10. 

іп'Ь ГСіпѣ і) 

{ з’Ьа'Ьіс іпѣ кпоѵпЕ [тахЫ] ; 

(кпоѵпГ[і] != 0) геѣигп кпоѵтЕ[і] ; 
іпЪ ѣ = і ; 

іі: (і < 0) гѳѣигп 0; 

(і > 1) ѣ = Е(і-1) + Г(і-2); 
гѳѣигп кпоѵпЕ[і] = Ъ; 

} 



РИСУНОК 5.15 ПРИМЕНЕНИЕ 
НИСХОДЯЩЕГО 
ДИНАМИЧЕСКОГО 
ПРОГРАММИРОВАНИЯ ДЛЯ 
ВЫЧИСЛЕНИЯ ЧИСЕЛ 
ФИБОНАЧЧИ 

Из этой схемы рекурсивных 
вызовов, использованных для 
вычисления Р 8 методом 
нисходящего динамического 
программирования , видно , 
как сохранение вычисленных 
значений снижает 
нарастание затрат с 
экспоненциального (см. рис. 
5. 14) до линейного . 


В качестве более сложного примера давайте рассмотрим задачу о ранце: вор, гра- 
бящий сейф, находит в нем N видов предметов различных размеров и ценности, но 
имеет только небольшой ранец емкостью Л/, в котором может унести награбленное. 
Задача заключается в том, чтобы определить комбинацию предметов, которые вор 
должен уложить в ранец, чтобы общая стоимость похищенного оказалась наиболь- 
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шей. Например, при наличии типов предметов, 
представленных на рис. 5.16, вор, располагающий 
ранцем, размер которого равен 17, может взять 
только пять (но не шесть) предметов А общей сто- 
имостью равной 20 или предметы О и Е суммарной 
стоимостью равной 24 или предметы в одной из 
множества других комбинаций. Наша цель — найти 
эффективный алгоритм для определения максиму- 
ма среди всех возможностей при любом заданном 
наборе предметов и вместимости ранца. 

Решения задачи о ранце важны во многих при- 
ложениях. Например, транспортной компании мо- 
жет требоваться определение наилучшего способа 
загрузки грузовика или транспортного самолета. В 
подобных приложениях могут встречаться и другие 
варианты этой задачи: например, количество эле- 
ментов каждого вида может быть ограничено или 
могут быть доступны два грузовика. Многие из та- 
ких вариантов могут решаться путем применения 
того же подхода, который мы собираемся исследо- 
вать для решения только что сформулированной 
базовой задачи; другие варианты оказываются го- 
раздо более сложными. Можно четко разграничить 
решаемые и нерешаемые задачи этого типа, что ис- 
следуется в части 8. 

В рекурсивном решении задачи о ранце при каж- 
дом выборе предмета мы предполагаем, что можем 
(рекурсивно) определить оптимальный способ за- 
полнения остающегося пространства в ранце. Для 
ранца размера сар, для каждого доступного типа 
элемента і определяется общая стоимость элемен- 
тов, которые можно было бы унести, укладывая 
і-ый элемент в ранец при оптимальной упаковке 
остальных элементов. Этот оптимальный способ 
упаковки — просто способ упаковки, определенный 
(или который будет определен) для меньшего ран- 
ца размера сар-ііет8[і].8Іге. В этом решении ис- 
пользуется следующий принцип: оптимальные при- 
нятые решения в дальнейшем не требуют 
пересмотра. Как только установлено, как оптималь- 
но упаковать ранцы меньших размеров, эти задачи 
не требуют повторного исследования независимо от 
следующих элементов. 


0 12 3 4 

предмет АВС Ц Е 

размер 3 4 7 8 9 

ценность 4 5 10 11 13 
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РИСУНОК 5.16 ПРИМЕР ЗАДАЧИ 
О РАНЦЕ 

Входными данными примера 
задачи о ранце (вверху) являются 
емкость ранца и набор 
предметов различных размеров 
( которые представлены 
значениями на горизонтальной 
оси) и стоимости (значения на 
вертикальной оси). На этом 
рисунке показаны четыре 
различных способа заполнения 
ранца , размер которого равен 
1 7; два из этих способов ведут к 
получению максимальной 
суммарной стоимости , равной 
24. 
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Программа 5.12 — прямое рекурсивное решение, основывающееся на приведен- 
ных рассуждениях. Эта программа также неприменима для решения встречающихся 
на практике задач, поскольку из-за большого объема повторных вычислений (см. рис. 
5.17) время решения связано с количеством элементов экспоненциально. Но для ре- 
шения проблемы можно автоматически задействовать нисходящее динамическое про- 
граммирование, как показано в программе 5.13. Как и ранее, эта методика исклю- 
чает все повторные вычисления (см. рис. 5.18). 

Программа 5.12 Задача о ранце (рекурсивная реализация) 

Аналогично тому, как мы предостерегали в отношении рекурсивного решения задачи 
вычисления чисел Фибоначчи, не следует использовать эту программу, поскольку для 
ее выполнения потребуется время, экспоненциально связанное с количеством 
элементов, и поэтому, возможно, даже небольшой задачи решение получить не удастся. 
Тем не менее, программа представляет компактное решение, которое легко можно 
усовершенствовать (см. программу 5.13). В ней предполагается, что элементы являются 
структурами с размером и стоимостью, которые определены следующим образом 

ѣуресіе^ зЪггісІ: { іпі зіге; іпЪ ѵаі; } Іѣвт; 

кроме того, в нашем распоряжении имеется массив N элементов типа Нет. Для 
каждого возможного элемента мы вычисляем (рекурсивно) максимальную стоимость, 
которую можно было бы получить, включив этот элемент в выборку, а затем выбираем 
максимальную из всех стоимостей. 

іпі: кпар(іп*: сар) 

{ іпЪ і , зрасе , шах , Ь ; 

і:ог (і = 0, тах = 0; і < Ц; і++) 
і* ((зрасе = сар-іѣетз [і] . зіге) >= 0) 
іі: ( (і. = кпар(зрасе) + і^етз [і] . ѵаі) > тах) 
тах = Ь ; 
геѣигп тах; 

> 



РИСУНОК 5.17 РЕКУРСИВНАЯ СТРУКТУРА АЛГОРИТМА РЕШЕНИЯ ЗАДАЧИ О РАНЦЕ. 

Это дерево представляет структуру рекурсивных вызовов простого рекурсивного алгоритма решения 
задачи о ранце , реализованного в программе 5. 12. Число в каждом узле представляет остающееся 
свободным пространство ранца. Недостатком алгоритма является то же экспоненциальное 
снижение производительности вследствие большого объема повторных вычислений , требуемых для 
решения перекрывающихся подзадач , которое рассматривалось при вычислении чисел Фибоначчи (см. 
рис. 5.14). 
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Программа 5.13 Задача о ранце (динамическое программирование) 


Эта программа, которая представляет собой механически измененную программу 5.12, 
снижает с экспоненциальной до линейной зависимость времени выполнения от 
количества элементов. Мы просто сохраняем любые вычисленные значения функции, 
а затем вместо выполнения рекурсивных вызовов получаем любые сохраненные 
значения, когда они требуются (используя зарезервированное значение для 
представления неизвестных значений). Индекс элемента сохраняется, поэтому при 
желании всегда можно восстановить содержимое ранца после вычисления: 
і(етКпоѵѵп[М] находится в ранце, остальное содержимое совпадает с оптимальной 
упаковкой ранца размера М-ііетКпоші[М].8іге, следовательно, ііетКпоѵѵп[М- 
ііетз[М].8іге] находится в ранце и т.д. 


іпѣ кпар(±пѣ М) 

{ іпЬ і, зрасе, шах , тахі =0, Ь; 

(тахКпоѵт [М] != ипкпокп) геѣит тахКпоѵт [М]; 

^ог (і » 0, тах = 0; і < И; і++) 

((зрасе = М-іѣвтв [і] . зіге) >= 0) 
і* ((1 = кпар(зрасе) + іѣѳтз [і] . ѵаі) >«тах) 

{ тах = Ъ; тахі = і; } 

тахКпоѵт [М] = тах; і-ЬетКпоѵт [М] = іѣетз [тахі] ; 
ге'Ьигп тах; 


Динамическое программирование принципиально исключает все повторные вы- 
числения в любой рекурсивной программе, при условии, что мы можем себе позволить 
сохранять значения функции для аргументов, которые меньше чем интересующий 
вызов. 

Лемма 5.3 Динамическое программирование уменьшает время выполнения рекурсивной 
функции до максимального значения , которое потребуется на вычисление функции для 
всех аргументов , которые меньше или равны данному аргументу, при условии , что сто- 
имость рекурсивного вызова остается постоянной. 

См. упражнение 5.50. 

Применительно к задаче о ранце из леммы следует, что время выполнения про- 
порционально произведению N14. Таким образом, задача о ранце легко поддается 
решению, когда емкость ранца не очень велика; для очень больших емкостей время 
и требуемый объем памяти могут оказаться недопустимо большими. 



РИСУНОК 5.18 ПРИМЕНЕНИЕ МЕТОДА НИСХОДЯЩЕГО ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ 
ДЛЯ РЕАЛИЗАЦИИ АЛГОРИТМА РЕШЕНИЯ ЗАДАЧИ О РАНЦЕ 

Подобно тому, как это было сделано для вычисления чисел Фибоначчи, методика с сохранением 
известных значений уменьшает нарастание затрат времени на выполнение алгоритма с 
экспоненциального (см. рис. 5.17) до линейного. 
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Восходящее динамическое программирование также применимо к задаче о ран- 
це. Действительно, метод восходящего программирования можно применять во всех 
случаях, когда применим метод нисходящего программирования, хотя при этом не- 
обходимо убедиться, что значения функции могут быть вычислены в соответствующем 
порядке, чтобы каждое нужное значение вычислялось в требуемый момент. Для фун- 
кций, имеющих только один целочисленный аргумент, подобных рассмотренным, 
можно просто увеличить порядок аргумента (см. упражнение 5.53); для более слож- 
ных рекурсивных функций определение правильного порядка может быть сложной 
задачей. 

Например, мы не обязаны ограничиваться рекурсивными функциями только с 
одним целочисленным аргументом. При наличии функции с несколькими целочис- 
ленными аргументами решения меньших подзадач можно сохранить в многомерных 
массивах, по одному для каждого аргумента. В других ситуациях целочисленные ар- 
гументы вообще не требуются, а вместо этого можно использовать абстрактную фор- 
мулировку отдельной задачи, позволяющую разделить задачу на менее сложные. При- 
меры таких задач рассмотрены в частях 5—8. 

При использовании нисходящего динамического программирования известные 
значения сохраняются; при использовании восходящего динамического программи- 
рования они вычисляются заранее. В общем случае нисходящее динамическое про- 
граммирование предпочтительней восходящего, поскольку 

■ оно представляет собой механическую трансформацию естественного решения 
задачи; 

■ порядок решения подзадач определяется сам собой; 

■ решение всех подзадач может не потребоваться. 

Приложения, в которых применяется динамическое программирование, различа- 
ются по сущности подзадач и объему сохраняемой для них информации. 

Важный момент, которым нельзя пренебрегать, заключается в том, что динами- 
ческое программирование становится неэффективным, когда количество возможных 
значений функции, которые могут потребоваться, столь велико, что мы не можем 
себе позволить их сохранять (при нисходящем программировании) или вычислять 
предварительно (при восходящем программировании). Например, если в задаче о 
ранце М и размеры элементов — 64-разрядные величины или числа с плавающей точ- 
кой, мы не сможем сохранять значения путем их индексирования в массиве. Это не- 
соответствие — не просто небольшое неудобство — оно создает принципиальные 
трудности. Для подобных задач пока не известно ни одного достаточно эффективно- 
го решения; как будет показано в части 8, имеются веские причины считать, что эф- 
фективного решения вообще не существует. 

Динамическое программирование — это методика разработка алгоритмов, кото- 
рая рассчитана в первую очередь для решения сложных задач того типа, который бу- 
дет рассмотрен в частях 5—8. Большинство рассмотренных в частях со 2 по 4 алго- 
ритмов представляют собой реализацию методов типа "разделяй и властвуй" с 
неперекрывающимися подзадачами, и основное внимание было уделено скорее суб- 
квадратичной или сублинейной зависимости производительности, чем субэкспонен- 
циальной. Однако, нисходящее динамическое программирование является базовой 
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технологией разработки эффективных реализаций рекурсивных алгоритмов, которая 
присутствует в арсенале средств любого, кто принимает участие в создании и реали- 
зации алгоритмов. 

Упражнения 

> 5.37 Создайте функцию, которая вычисляет /V по модулю Л/, используя строго по- 
стоянный объем памяти для промежуточных вычислений. 

5.38 Каково наибольшее значение 7Ѵ, для которого Г м может быть представлено 
в виде 64-разрядного целого числа? 

о 5.39 Нарисуйте дерево, которое соответствует рис. 5.15 для случая, когда выпол- 
нена взаимная замена рекурсивных вызовов в программе 5.11. 

5.40 Создайте функцию, которая использует восходящее динамическое програм- 
мирование для вычисления значения Р V, определяемого рекуррентным соотноше- 
нием 

Рм = Ѵм/2\+ Р\л/г\ + Р\н/г\ для N > 1, приРо^О. 

Нарисуйте график зависимости Рн — N 1§7Ѵ/ 2 от N для 0 < УѴ < 1 024. 

5.41 Создайте функцию, в которой восходящее динамическое программирование 
используется для решения упражнения 5.40. 

о 5.42 Нарисуйте дерево, которое соответствует рис. 5.15 для функции из упражне- 
ния 5.41 при значении УѴ = 23. 

5.43 Нарисуйте график зависимости количества рекурсивных вызовов, выполня- 
емых функцией из упражнения 5.41 для вычисления /V, от УѴдля 0 < УѴ < 1024. 
(Для выполнения этих вычислений для каждого значения УѴ программа должна за- 
пускаться заново.) 

5.44 Создайте функцию, в которой восходящее динамическое программирование 
используется для вычисления значения Сѵ, определенного рекуррентным соотно- 
шением 


С/ѵ — N + У(С М+ С^>, 

^ 1 <*<7Ѵ 

для УѴ > 1 , при Со = 1 

5.45 Создайте функцию, в которой нисходящее динамическое программирование 
применяется для решения упражнения 5.44. 

о 5.46 Нарисуйте дерево, которое соответствует рис. 5.15 для функции из упражне- 
ния 5.45 при значении УѴ = 23. 

5.47 Нарисуйте график зависимости количества рекурсивных вызовов, выполня- 
емых функцией из упражнения 5.45 для вычисления С#, от УѴдля 0 < УѴ < 1024. 
(Для выполнения этих вычислений для каждого значения УѴ программа должна за- 
пускаться заново.) 

о 5.48 Приведите содержимое массивов тахКштп и йетКпоѵѵп, вычисленное про- 
граммой 5.13 для вызова кпар(17) применительно к элементам, приведенным на 
рис. 5.16. 
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> 5.49 Приведите дерево, соответствующее рис. 5.18 при допущении, что элементы 
рассматриваются в порядке уменьшения их размеров. 

• 5.50 Докажите лемму 5.3. 

о 5.51 Создайте функцию, решающую задачу о ранце, используя версию програм- 
мы 5.12, в которой применяется восходящее динамическое программирование. 

• 5.52 Создайте функцию, которая решает задачу о ранце методом нисходящего ди- 
намического программирования, но используя при этом рекурсивное решение, 
основывающееся на вычислении оптимального количества конкретного элемен- 
та, который должен быть помещен в ранец, исходя из определения (рекурсивно) 
оптимального способа упаковки ранца без этого элемента. 

о 5.53 Создайте функцию, решающую задачу о ранце, используя версию рекурсив- 
ного решения, описанного в упражнении 5.52, в которой применяется восходящее 
динамическое программирование. 

• 5.54 Воспользуйтесь динамическим программированием для решения упражнения 
5.4. Обеспечьте отслеживание общего количества сохраняемых вызовов функций. 


5.55 Создайте программу, в которой нисходящее динамическое программирова- 


ние применяется для вычисления биномиального коэффициента 
рекурсивного соотношения 




ИСХОДЯ ИЗ 





Ѵ°У 




5.4 Деревья 

Деревья — это математические абстракции, играющие главную роль при разработ- 
ке и анализе алгоритмов, поскольку 

■ мы исшш*зуем деревья для описания динамических свойств алгоритмов; 

■ мы строим и используем явные структуры данных, которые являются конкрет- 
ными реализациями деревьев. 

Мы уже встречались с примерами обоих применений деревьев. В главе 1 были 
разработаны алгоритмы для решения задачи подключения, которые основывались на 
структурах деревьев, а в разделах 5.2 и 5.3 структура вызовов рекурсивных алгорит- 
мов была описана с помощью структур деревьев. 

Мы часто встречаемся с деревьями в повседневной жизни — это основное поня- 
тие очень хорошо знакомо. Например, многие люди отслеживают предков и наслед- 
ников с помощью генеалогического дерева; как будет показано, значительная часть 
терминов заимствована именно из этой области применения. Еще один пример — 
организация спортивных турниров; среди прочих, в исследовании этого применения 
принял участие и Льюис Кэрролл (Ье\ѵІ5 Саггоіі). В качестве третьего примера мож- 
но привести организационную диаграмму большой корпорации; это применение от- 
личается иерархическим разделением, характерным для алгоритмов типа "разделяй и 
властвуй". Четвертым примером служит дерево синтаксического разложения предло- 
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жения английского (или любого другого языка) на составляющие его части; такое 
дерево близко связано с обработкой компьютерных языков, как описано в части 5. 
Типичный пример дерева, в данном случае описывающего структуру этой книги, по- 
казан на рис. 5.19. В книге рассматривается и множество других примеров примене- 
ния деревьев. 

Применительно к компьютерам, одно из наиболее известных применений струк- 
тур деревьев — для организации файловых систем. Файлы хранятся в каталогах (иног- 
да называемых также папками ), которые рекурсивно определяются как последова- 
тельности каталогов и файлов. Это рекурсивное определение снова отражает 
естественное рекурсивное разбиение на составляющие и идентично определению 
определенного типа дерева. 

Существует множество различных типов деревьев, и важно понимать различие 
между абстракцией и конкретным представлением, с которым выполняется работа 
для данного приложения. Соответственно, мы подробно рассмотрим различные типы 
деревьев и их представления. Рассмотрение начнется с определения деревьев как аб- 
страктных объектов и с ознакомления с большинством основных связанных с ними 
терминов. Мы неформально рассмотрим различные типы деревьев, которые следу- 
ет рассматривать в порядке сужения самого этого понятия: 

■ Деревья 

■ Деревья с корнем 

■ Упорядоченные деревья 

■ М-арные и бинарные деревья 

После этого неформального рассмотрения мы перейдем к формальным опреде- 
лениям и рассмотрим представления и приложения. На рис. 5.20 приведена иллюст- 
рация многих из этих базовых концепций, которые будут сначала рассматриваться, а 
затем и определяться. 

Дерево (ігее) — это непустая коллекция вершин и ребер, удовлетворяющих опре- 
деленным требованиям. Вершина (ѵегіех) — это простой объект (называемый также уз- 
лом ( посіе )), который может иметь имя и содержать другую связанную с ним инфор- 
мацию; ребро ( ес1%е) — это связь между двумя вершинами. Путь (раік) в дереве — это 
список отдельных вершин, в котором следующие друг за другом вершины соединя- 
ются ребрами дерева. Определяющее свойство дерева — существование только одно 
пути, соединяющего любые два узла. Если между какой-либо парой узлов существу- 
ет более одного пути или если между какой-либо парой узлов путь отсутствует, мы 
имеем граф, а не дерево. Несвязанный набор деревьев называется бором фгезі). 



РИСУНОК 5.19 ДЕРЕВО 

Это дерево описывает части, главы и разделы этой книги . Каждый элемент представлен узлом . 
Каждый узел связан нисходящими связями с составляющими его частями и восходящей связью — с 
большей частью, к которой он принадлежит. 
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РИСУНОК 5.20 ТИПЫ ДЕРЕВЬЕВ 

На этих схемах приведены 
примеры двоичного дерева 
(вверху слева), троичного 
дерева (вверху справа ), дерева с 
корнем (внизу слева) и 
свободного дерева (внизу 
справа). 




Дерево с корнем (единственным, гооіед) — это дерево, в котором один узел назна- 
чен корнем (гооі) дерева. В области компьютеров термин дерево обычно применяется 
к деревьям с корнем, а термин свободное дерево (/гее (гее) — к более общим структу- 
рам, описанным в предыдущем абзаце. В дереве с корнем любой узел является кор- 
нем поддерева, состоящего из него и расположенных под ним узлов. 

Существует только один путь между корнем и каждым из других узлов дерева. 
Данное определение никак не определяет направление ребер; обычно считается, что 
все ребра указывают от корня или к корню, в зависимости от приложения. Обычно 
деревья с корнем рисуются с корнем, расположенным в верхней части (хотя на пер- 
вый взгляд это соглашение кажется неестественным), и говорят, что узел у распола- 
гается под узлом х (а х располагается над у), если х находится на пути от у к корню 
(т.е., у находится под х , как нарисовано на странице, и соединяется с х путем, кото- 
рый не проходит через корень). Каждый узел (за исключением корня) имеет только 
один узел над ним, который называется его родительским узлом ( рагепі )\ узлы, распо- 
ложенные непосредственно под данным узлом, называются его дочерними узлами 
(сШШгеп). Иногда аналогия с генеалогическими деревьями расширяется еще больше 
и тогда говорят об узла х-предках (%гапй рагепі) или родственных (зіЫіщ) узлах данно- 
го узла. 

Узлы, не имеющие дочерних узлов, называются листьями (Іеаѵез) или терминаль- 
ными (оконечными, іегтіпаі) узлами. Для соответствия с последним применением узлы, 
имеющие хотя бы один дочерний узел, иногда называются нетерминальными 
(попіегтіпаі) узлами. В этой главе мы уже встречались с примером утилиты, различа- 
ющей эти типы узлов. В деревьях, которые использовались для представления струк- 
туры вызовов рекурсивных алгоритмов (например, рис. 5.14), нетерминальные узлы 
(окружности) представляют вызовы функций с рекурсивными вызовами, а терми- 
нальные узлы (квадраты) представляют вызовы функций без рекурсивных вызовов. 

В определенных приложениях способ упорядочения дочерних узлов каждого узла 
имеет значение; в других это не важно. Упорядоченное (огдегед) дерево — это дерево 
с корнем, в котором определен порядок следования дочерних узлов каждого узла. 
Упорядоченные деревья — естественное представление: например, при рисовании де- 
рева дочерние узлы размещаются в определенном порядке. Действительно, многие 
іругие конкретные представления имеют аналогично предполагаемый порядок; на- 
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пример, обычно это различие имеет значение при рассмотрении представления дере- 
вьев в компьютере. 

Если каждый узел должен иметь конкретное количество дочерних узлов, появля- 
ющихся в конкретном порядке, мы имеем М-арное дерево. В таком дереве часто можно 
определить специальные внешние узлы, которые не имеют дочерних узлов. Тогда 
внешние узлы могут действовать в качестве фиктивных, на которые ссылаются узлы, 
не имеющие указанного количества дочерних узлов. В частности, простейшим типом 
Л/-арного дерева является бинарное дерево. Бинарное дерево (Ыпагу ігее) — это упоря- 
доченное дерево, состоящее из узлов двух типов: внешних узлов без дочерних узлов 
и внутренних узлов, каждый из которых имеет ровно два дочерних узла. Поскольку 
два дочерних узла каждого внутреннего узла упорядочены, говорят о левом дочернем 
узле (Іе/і сИіШ) и правом дочернем узле (щНі сИіШ) внутренних узлов. Каждый внутрен- 
ний узел должен иметь и левый, и правый дочерние узлы, хотя один из них или оба 
могут быть внешними узлами. Лист в М- арном дереве — это внутренний узел, все 
дочерние узлы которого являются внешними. 

Все это общая терминология. Далее рассматриваются формальные определения, 
представления и приложения, в порядке расширения понятий: 

■ бинарные и М- арные деревья 

■ упорядоченные деревья 

■ деревья с корнем 

■ свободные деревья 

Начав с наиболее характерной абстрактной структуры, мы должны быть в состо- 
янии подробно рассмотреть конкретные представления, как станет понятно из даль- 
нейшего изложения. 

Определение 5.1 Бинарное дерево — это либо внешний узел , либо внутренний узел , свя- 
занный с парой бинарных деревьев , которые называются левым и правым поддеревьями 

этого узла. 

Из этого определения становится понятно, что сами деревья — абстрактное мате- 
матическое понятие. При работе с компьютерными представлениями мы работаем 
всего лишь с одной конкретной реализацией этой абстракции. Эта ситуация не отли- 
чается от представления действительных чисел значениями типа Доаі, целых чисел 
значениями типа іпі и т.д. Когда мы рисуем дерево с узлом в корне, связанным реб- 
рами с левым поддеревом, расположенным слева, и с правым поддеревом, располо- 
женным справа, то выбираем удобное конкретное представление. Существует мно- 
жество различных способов представления бинарных деревьев (см., например, 
упражнение 5.62), которые поначалу кажутся удивительными, но вполне отражают 
сущность, как и можно было ожидать, учитывая абстрактный характер определения. 

Чаще всего применяется следующее конкретное представление при реализации 
программ, использующих и манипулирующих бинарными деревьями, — структура с 
двумя связями (правой и левой) для внутренних узлов (см. рис. 5.21). Эти структуры 
аналогичны связным спискам, но они имеют по две связи для каждого узла, а не по 
одной. Нулевые связи соответствуют внешним узлам. В частности, мы добавили связь 
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к стандартному представлению связного списка, приведенному в разделе 3.3, следу- 
ющим образом: 

зѣгисѣ посіе { Іѣет іѣет; посіѳ *1, *г; } 

Ъурѳсіѳ^ посіе *1іпк; 

что представляет собой всего лишь код С++ для определения 5.1. Узлы состоят из эле- 
ментов и пар указателей на узлы, и указатели на узлы называются также связями. 
Так, например, мы реализуем абстрактную операцию перехода к левому поддереву с 
помощью ссылки на указатель типа х = х->1. 

Это стандартное представление позволяет построить эффективную реализацию 
операций, которые вызываются для перемещения по дереву вниз от корня, но не для 
перемещения по дереву вверх от дочернего узла к его родительскому узлу. Для алго- 
ритмов, требующих использования таких операций, можно добавить третью связь для 
каждого узла, направленную к его родительскому узлу. Эта альтернатива аналогич- 
на двухсвязным спискам. Как и в случае со связными списками (см. рис. 3.6), в оп- 
ределенных ситуациях узлы дерева хранятся в массиве, а в качестве связей исполь- 
зуются индексы, а не указатели. Конкретный пример такой реализации исследуется 
в разделе 12.7. Для определенных специальных алгоритмов используются другие пред- 
ставления бинарных деревьев, что наиболее полно исследуется в главе 9. 

Из-за наличия такого множества различных возможных представлений можно 
было бы разработать АБТ (АЬзІгасІ Эаіа Туре) (абстрактный тип данных) бинарно- 
го дерева, инкапсулирующий важные операции, которые нужно выполнять, и разде- 
ляющий использование и реализацию этих операций. В данной книге данный подход 
не используется, поскольку 

■ чаще всего мы используем представление с двумя связями; 

■ мы используем деревья для реализации АЭТ более высокого уровня, и хотим 
сосредоточить внимание на этой теме; 

■ мы работаем с алгоритмами, эффективность которых зависит от конкретного 
представления, — это обстоятельство может быть упущено в АШ\ 

По этим же причинам мы используем уже знакомые конкретные представления 
массивов и связных списков. Представление бинарного дерева, отображенное на рис. 
5.21 — один из фундаментальных инструментов, который теперь добавлен к этому 
краткому списку. 

Анализируя связные списки, мы начали рассмотрение с элементарных операций 
вставки и удаления узлов (см. рис. 3.3 и 3.4). При использовании стандартного пред- 
ставления бинарных деревьев такие операции необязательно являются элементарны- 
ми из-за наличия второй связи. Если нужно удалить узел из бинарного дерева, при- 
ходится решать принципиальную проблему наличия двух дочерних узлов и только 
одного родительского, с которыми нужно работать после удаления узла. Существу- 
ют три естественных операции, для которых подобное осложнение не возникает: 
вставка нового узла в нижней части дерева (замена нулевой связи связью с новым 
узлом), удаление листа (замена связи с ним нулевой связью) и объединение двух де- 
ревьев посредством создания нового корня, левая связь которого указывает на одно 
дерево, а правая — на другое. Эти операции интенсивно используются при манипу- 
лировании бинарными деревьями. 
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Опредление 5.2 М-арное дерево — это внешний узел , либо внутренний узел, связан- 
ный с упорядоченной последовательностью М деревьев, которые также являются М-ар- 
ными деревьями. 

Обычно узлы в М - арных деревьях представляются либо в виде структур с М име- 
нованными связями (как в бинарных деревьях), либо в виде массивов М связей. На- 
пример, в главе 15 рассмотрены 3-арные (или троичные) деревья, в которых исполь- 
зуются структуры с тремя именованными связями (левой, средней и правой), каждая 
из которых имеет специальное значение для связанных с ними алгоритмов. В осталь- 
ных случаях использование массивов для хранения связей вполне подходит, поскольку 
значение М фиксировано, хотя, как будет показано, при использовании такого представ- 
ления особое внимание потребуется уделить интенсивному использованию памяти. 

Определение 5.3 Дерево (также называемое упорядоченным деревом) — это узел (на- 
зываемый корнем), связанный с последовательностью несвязанных деревьев. Такая пос- 
ледовательность называется бором. 

Различие между упорядоченными деревьями и Л/-арными деревьями состоит в 
том, что узлы в упорядоченных деревьях могут иметь любое количество дочерних 
узлов, в то время как узлы в М- арных деревьях должны иметь точно М дочерних уз- 
лов. Иногда в контекстах, в которых требуется различать упорядоченные и М- арные 
деревья, мы используем термин главное дерево (% епегаі Ггее). 

Поскольку каждый узел в упорядоченном дереве может иметь любое количество 
связей, представляется естественным рассматривать его с использованием связного 
списка, а не массива, для хранения связей с дочерними узлами. Пример такого пред- 
ставления приведен на рис. 5.22. Из этого примера видно, что тогда каждый узел со- 
держит две связи: одну для связного списка, соединяющего его с родственными уз- 
лами, и вторую для связного списка его дочерних узлов. 

Лемма 5.4 Существует однозначное соответствие между бинарными деревьями и упо- 
рядоченными борами. 

Это соответствие показано на рис. 5.22. Любой бор можно представить в виде 
бинарного дерева, сделав левую связь каждого узла указывающей на его левый до- 
черний узел, а правую связь каждого узла — указывающей на родственный узел, 
расположенный справа. 
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В стандартном представлении бинарного дерева используются узлы с двумя связями: левой связью с 
левым поддеревом и правой связью с правым поддеревом. Нулевые связи соответствуют внешним 
узлам. 
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Определение 5.4 Дерево с корнем (или неупорядоченное дерево) — это узел (называ- 
емый корнем), связанный с множественным набором деревьев с корнем. (Такой множе- 
ственный набор называется неупорядоченным бором.) 

Деревья, с которыми мы встречались в главе 1, посвященной проблеме связное- 
ти, являются неупорядоченными деревьями. Такие деревья могут быть определены в 
качестве упорядоченных деревьев, в которых порядок рассмотрения дочерних узлов 
узла не имеет значения. Неупорядоченные деревья можно было бы также определить 
в виде набора взаимосвязей между родительскими и дочерними узлами. Такое пред- 
ставление может казаться не связанным с рассматриваемыми рекурсивными струк- 
турами, но, вероятно, является конкретным представлением, которое в основном со- 
ответствует абстрактному подходу. 

Неупорядоченное дерево можно было бы представить в компьютере упорядо- 
ченным деревом; при этом приходится признать, что несколько различных упо- 
рядоченных деревьев могут представлять одно и то же неупорядоченное дерево. 
Действительно, обратная задача определения того, представляют ли два различные 
упорядоченные дерева одно и то же неупорядоченное дерево (задача изоморфизма 
дерева) трудно подается решению. 

Наиболее общим типом деревьев является дерево, в котором не выделен ни один 
корневой узел. Например, остовные деревья, полученные в результате работы алго- 
ритмов связности из главы 1, обладают этим свойством. Для правильного определе- 
ния деревьев без корня , неупорядоченных деревьев и свободных деревьев потребуется начать 
с определения графов (& гарИз ). 

Определение 5.5 Граф — это набор узлов с набором ребер, которые соединяют пары 
отдельных узлов (причем любую пару узлов соединяет только одно ребро). 

<Х: 


РИСУНОК 5.22 ПРЕДСТАВЛЕНИЕ ДЕРЕВА 

Представление упорядоченного дерева за счет поддержания связного списка дочерних узлов каждого 
узла эквивалентно представлению его в виде двоичного дерева. На схеме справа вверху показано 
представление в виде связного списка дочерних узлов для дерева , показанного слева вверху; при этом 
список реализован в правых связях узлов , а левая связь каждого узла указывает на первый узел в 
связном списке его дочерних узлов. На схеме справа внизу приведена несколько измененная версия 
верхней схемы; она представляет бинарное дерево , изображенное слева внизу. Таким образом, 
бинарное дерево можно рассматривать в качестве представления дерева. 
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Представьте себе, что перемещаетесь вдоль ребра от одного какого-либо узла до 
другого, затем от этого узла к следующему и т.д. Последовательность ребер, ведущих 
от одного узла до другого, когда ни один узел не посещается дважды, называется про - 
стым путем. Граф является связным ( соппесіеф , если существует простой путь, связы- 
вающий любую пару узлов. Простой путь, у которого первый и последний узел совпа- 
дают, называется циклом (сусіе). 

Каждое дерево является графом; а какие же графы являются деревьями? Граф счи- 
тается деревом, если он удовлетворяет любому из следующих четырех условий: 

■ Граф имеет N — 1 ребер и ни одного цикла. 

■ Граф имеет А — 1 ребер и является связным. 

■ Только один простой путь соединяет каждую пару вершин в графе. 

■ Граф является связным, но перестает быть таковым при удалении любого ребра. 

Любое из этих условий — необходимое и достаточное условие для выполнения ос- 
тальных трех. Формально, одно из них должно было бы служить определением сво- 
бодного дерева ; неформально, они все вместе служат определением. 

Мы представляем свободное дерево в виде коллекции ребер. Если представлять 
свободное дерево неупорядоченным, упорядоченным или даже бинарным деревом, 
придется признать, что в общем случае существует множество различных способов 
представления каждого свободного дерева. 

Абстракция дерева используется часто, и рассмотренные в этом разделе различия 
важны, поскольку знание различных абстракций деревьев — существенная составля- 
ющая определения эффективного алгоритма и соответствующих структур данных для 
решения данной задачи. Часто приходится работать непосредственно с конкретны- 
ми представлениями деревьев без учета конкретной абстракции, но в то же время 
часто имеет смысл поработать с соответствующей абстракцией дерева, а затем рас- 
смотреть различные конкретные представления. В книге приведено множество при- 
меров этого процесса. 

Прежде чем вернуться к алгоритмам и представлениям, мы рассмотрим ряд основ- 
ных математических свойств деревьев; эти свойства будут использоваться при разра- 
ботке и анализе алгоритмов в виде деревьев. 

Упражнения 

> 5.56 Приведите представления свободного дерева, показанного на рис. 5.20, в фор- 
ме дерева с корнем и бинарного дерева. 

• 5.57 Сколько существует различных способов представления свободного дерева, 
показанного на рис. 5.20, в форме упорядоченного дерева? 

> 5.58 Нарисуйте три упорядоченных дерева, которые изоморфны по отношению 
к упорядоченному дереву, показанному на рис. 5.20. Другими словами, должна су- 
ществовать возможность преобразования всех четырех деревьев одного в другое 
путем обмена дочерними узлами. 

о 5.59 Предположите, что деревья содержат элементы, для которых определена опе- 
рация орегаіог==. Создайте рекурсивную программу, которая удаляет в бинарном 
дереве все листья, содержащие элементы, равные данному (см. программу 5.5). 
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о 5.60 Измените функцию "разделяй и властвуй" для поиска максимального элемен- 
та в массиве (программа 5.6), чтобы она делила массив на к частей, размер кото- 
рых различался бы не более чем на 1, рекурсивно находила максимум в каждой 
части и возвращала максимальный из максимумов. 

5.61 Нарисуйте 3-арные и 4-арные деревья, соответствующие использованию к= 3 
и к= 4 в рекурсивной конструкции, предложенной в упражнении 5.60, для масси- 
ва, состоящего из 1 1 элементов (см. рис. 5.6). 

о 5.62 Бинарные деревья эквивалентны двоичным строкам, в которых нулевых би- 
тов на 1 больше, чем единичных при соблюдении дополнительного ограничения, 
что в любой позиции к количество нулевых битов слева от к не больше, чем ко- 
личество единичных битов слева от к. Бинарное дерево — это либо нуль, либо две 
таких строки, объединенные вместе, которым предшествует 1. Нарисуйте бинар- 
ное дерево, соответствующее строке 

1110010110001011000 

о 5.63 Упорядоченные деревья эквивалентны согласованным парам круглых скобок: 
упорядоченное дерево — это либо нуль, либо последовательность упорядоченных 
деревьев, заключенных в круглые скобки. Нарисуйте упорядоченное дерево, со- 
ответствующее строке 

((()(()())())(()() О)) 

•# 5.64 Создайте программу для определения того, представляют ли два массива N 
целочисленных значений между 0 и N - 1 изоморфные неупорядоченные деревья, 
если интерпретируются (как в главе 1) в форме связей типа родительский -дочер- 
ний в дереве с узлами, пронумерованными от 0 до N - 1. То есть, программа дол- 
жна определять, существует ли способ изменения нумерации узлов в одном дере- 
ве, чтобы представление в виде массива одного дерева было идентичным 
представлению в виде массива другого дерева. 

•• 5.65 Создайте программу для определения того, представляют ли два бинарных де- 
рева изоморфные неупорядоченные деревья. 

о 5.66 Нарисуйте все упорядоченные деревья, которые могли бы представлять де- 
рево, определенное набором ребер 0-1, 1-2, 1-3, 1-4, 4-5. 

• 5.67 Докажите, что если в связанном графе, состоящем из N узлов, удаление лю- 
бого ребра влечет за собой разъединение графа, то он имеет N~ 1 ребер и ни од- 
ного цикла. 

5.5 Математические свойства бинарных деревьев 

Прежде чем приступить к рассмотрению алгоритмов обработки деревьев, продол- 
жим математическую тему, рассмотрев ряд базовых свойств деревьев. Мы сосредото- 
чим внимание на бинарных деревьях, поскольку они используются в книге чаще дру- 
гих. Понимание их основных свойств послужит фундаментом для понимания 
характеристик производительности различных алгоритмов, с которыми мы встретим- 
ся — не только тех, в которых бинарные дерецЬя используются в качестве явных 
структур данных, но и рекурсивных алгоритмов типа "разделяй и властвуй" и других 
аналогичных применений. 
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Лемма 5.5 Бинарное дерево с N внутренними умами имеет N + 1 внешних узлов. 

Эта лемма доказывается методом индукции: бинарное дерево без внутренних уз- 
лов имеет один внешний узел, следовательно, лемма справедлива для N = 0. Для 
УѴ> 0 любое бинарное дерево с УѴ внутренними узлами имеет к внутренних узлов 
в левом поддереве и УѴ— 1 -к внутренних узлов в правом поддереве для некоторо- 
го к в диапазоне между 0 и УѴ— 1, поскольку корень является внутренним узлом. В 
соответствии с индуктивным предположением левое поддерево имеет к + 1 вне- 
шних узлов, а правое поддерево — УѴ-А: внешних узлов, что в сумме составляет 
УѴ + 1. 

Лемма 5.6 Бинарное дерево с N внутренними узлами имеет 2УѴ связей : УѴ— 1 связей с 
внутренними умами и N + 1 связей с внешними умами. 

В каждом дереве с корнем каждый узел, за исключением корня, имеет единствен- 
ный родительский узел, и каждое ребро соединяет узел с его родительским узлом; 
следовательно, существует УѴ— 1 связей, соединяющих внутренние узлы. Аналогич- 
но, каждый из УѴ + 1 внешних узлов имеет одну связь со своим единственным ро- 
дительским узлом. 

Характеристики производительности многих алгоритмов зависят не только от ко- 
личества узлов в связанных с ними деревьях, но и от различных структурных свойств. 

Определение 5.6 Уровень (Іеѵеі) ума в дереве на единицу выше уровня его родительс- 
кого узла (коренъ размещается на уровне 0). Высота (Нещііі) дерева — максимальный 
из уровней умов дерева. Длина пути (раік Іепррік) дерева — сумма уровней всех узлов 
дерева. Длина внутреннего пути (іпіегпаі раік Іеп&к) бинарного дерева — сумма 
уровней всех внутренних узлов дерева. Длина внешнего пути (ехіегпаі раік Іещік) 
бинарного дерева — сумма уровней всех внешних узлов дерева. 

Удобный способ вычисления длины пути дерева заключается в суммировании про- 
изведений к на число узлов на уровне к для всех к. 

Из этих соотношений следуют также простые рекурсивные определения, вытека- 
ющие непосредственно из рекурсивных определений деревьев и бинарных деревьев. 
Например, высота дерева на 1 больше максимальной высоты поддеревьев его кор- 
ня, а длина пути дерева, имеющего УѴ узлов равна сумме длин путей поддеревьев его 
корня плюс УѴ— 1. Приведенные соотношения также непосредственно связаны с ана- 
лизом рекурсивных алгоритмов. Например, для многих рекурсивных вычислений вы- 
сота соответствующего дерева в точности равна максимальной глубине рекурсии, или 
размеру стека, необходимого для поддержки вычисления. 

Лемма 5.7 Длина внешнего пути любого бинарного дерева , имеющего N внутренних уз- 
лов, на 2УѴ больше длины внутреннего пути. 

Эту лемму можно было бы доказать методом индукции, но есть другое, более на- 
глядное доказательство (которое применимо и для доказательства леммы 5.6). Об- 
ратите внимание, что любое бинарное дерево может быть сконструировано при 
помощи следующего процесса: начните с бинарного дерева, состоящего из одно- 
го внешнего узла. Затем повторите следующее УѴ раз: выберите внешний узел и за- 
мените его новым внутренним узлом с двумя дочерними внешними узлами. Если 
выбранный внешний узел располагается на уровне к , длина внутреннего пути уве- 
личивается на к , но длина внешнего пути увеличивается на к + 2 (один внешний 
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узел на уровне к удаляется, но два на уровне 
к + 1 добавляются). Процесс начинается с дерева, 
длина внутреннего и внешнего путей которого 
равны 0, и на каждом из N шагов длина внешнего 
пути увеличивается на 2 больше, чем длина внут- 
реннего пути. 

Лемма 5.8 Высота бинарного дерева с N внутренни- 
ми узлами не меньше 1&/Ѵ и не больше N — 1 . 



уровень О 
уровень 1 

уровень 4 



Худший случай — вырожденное дерево, имеющее 
только один лист и ІѴ- 1 связь от корня до листа 
(см. рис. 5.23). В лучшем случае мы имеем урав- 
новешенное дерево с 2' внутренними узлами на 
каждом уровне /, за исключением самого нижнего 
(см. рис. 5.23). Если высота равна И , то должно 
быть справедливо соотношение 



2 /м < N + 1 < 2 И 

поскольку существует N + 1 внешних узлов. Из 
этого неравенства следует провозглашенная лем- 
ма: в лучшем случае высота равна 1§7Ѵ, округлен- 
ному до ближайшего целого числа. 

Лемма 5.9 Длина внутреннего пути бинарного дере- 
ва с N внутренними узлами не меньше чем ЛП§(УѴ/4) 
и не превышает іУ( N — 1 )/ 2 . 

Худший и лучший случай соответствуют тем же 
деревьям, которые упоминались при рассмотре- 
нии леммы 58 и показаны на рис. 5.23. В худшем 
случае длина внутреннего пути дерева равна 
0+1+2Н^.+(ЛМ)=7Ѵ(7Ѵ— 1)/2. В лучшем случае де- 
рево имеет (7Ѵ+1) внутренних узлов при высоте, 
не превышающей ы1§7Ѵѵ. Перемножая эти значе- 
ния и применяя лемму 5.7, мы получаем предель- 
ное значение (УѴ+1) |_1§УѴ] - 2 N < ЛЧ§(УѴ/ 4). 

Как мы увидим, бинарные деревья часто исполь- 


РИСУНОК 5.23 БИНАРНОЕ ДЕРЕВО 
С 10 ВНУТРЕННИМИ УЗЛАМИ 

Бинарное дерево, показанное 
вверху, имеет высоту равную 7 , 
длину внутреннего пути равную 31 
и длину внешнего пути равную 51. 
Полностью уравновешенное 
бинарное дерево (в центре) с 10 
внутренними узлами имеет высоту 
равную 4, длину внутреннего пути 
равную 19 и длину внешнего пути 
равную 39 (ни одно двоичное дерево 
с 10 узлами не может иметь 
меньшие значения любых из этих 
параметров). Вырожденное дерево 
(внизу) с 10 внутренними узлами 
имеет высоту равную 10, длину 
внутреннего пути равную 45 и 
длину внешнего пути равную 65 (ни 
одно бинарное дерево с 10 узлами 
не может иметь большие значения 
любых из этих параметров). 


зуются в компьютерных приложениях, и при этом 
производительность наи высшая, когда бинарные де- 
ревья полностью уравновешены (или близки к этому). Например, деревья, которые 
использовались нами для описания алгоритмов "разделяй и властвуй", подобных 
бинарному поиску и сортировке слиянием, полностью уравновешены (см. упражне- 
ние 5.74). В главах 9 и 13 исследуются явные структуры данных, основывающиеся на 


уравновешенных деревьях. 

Эти основные свойства деревьев предоставляют информацию, которая потребуется 
для разработки эффективных алгоритмов решения многих практических задач. Бо- 
лее подробный анализ нескольких специфичных алгоритмов, с которыми придется 
встретиться, требует сложного математического анализа, хотя часто полезные прибли- 
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женные оценки можно получить, прибегнув к прямолинейным индуктивным аргу- 
ментам, подобным использованным в этом разделе. В последующих главах мы про- 
должим рассмотрение математических свойств деревьев по мере возникновения не- 
обходимости. Пока можно вернуться к теме алгоритмов. 

Упражнения 

> 5.68 Сколько внешних узлов существует в М- арном дереве с N внутренними уз- 
лами? Используйте свой ответ для определения объема памяти, необходимого для 
представления такого дерева, если считать, что для каждой связи и каждого эле- 
мента требуется по одному слову памяти. 

5.69 Приведите верхнее и нижнее граничные значения высоты М-арного дерева 
с N внутренними узлами. 

о 5.70 Приведите верхнее и нижнее граничные значения длины внутреннего пути 
Л/-арного дерева с N внутренними узлами. 

5.71 Приведите верхнее и нижнее граничные значения количества листьев в би- 
нарном дереве с N узлами. 

• 5.72 Покажите, что если листья внешних узлов в бинарном дереве различаются на 
константу, то высота составляет 0( 1о§7Ѵ). 

о 5.73 Дерево Фибоначчи высотой п > 2 — это бинарное дерево с деревом Фибонач- 
чи высотой п- 1 в одном поддереве и дерево Фибоначчи высотой п - 2 — в дру- 
гом. Дерево Фибоначчи высотой 0 — это единственный внешний узел, а дерево 
Фибоначчи высотой 1 — единственный внутренний узел с двумя внешними дочер- 
ними узлами (см. рис. 5.14). Выразите высоту и длину внешнего пути дерева Фи- 
боначчи высотой п в виде функции N (количества узлов в дереве). 

5.74 Дерево типа " разделяй и властвуй ", состоящее из N узлов, — это бинарное де- 
рево с корнем, обозначенным УѴ, деревом типа "разделяй и властвуй", состоящим 
из І_УѴ/2_] узлов, в одном поддереве и деревом типа "разделяй и властвуй", состо- 
ящим из ГУѴ/2І узлов, в другом. (Дерево типа "разделяй и властвуй" показано на 
рис. 5.6.) Нарисуйте дерево типа "разделяй и властвуй" с II, 15, 16 и 23 узлами. 

о 5.75 Докажите методом индукции, что длина внутреннего пути дерева типа "раз- 
деляй и властвуй" находится в пределах между N 1§УѴ и УѴ 1§УѴ + УѴ. 

5.76 Дерево типа "объединяй и властвуй ", состоящее из УѴ узлов, — это бинарное де- 
рево с корнем, обозначенным УѴ, деревом типа "объединяй и властвуй", состоящим 
из Ы/ 2] у злов, в одном поддереве и Деревом типа "объединяй и властвуй", состо- 
ящим из ІУѴ/2І узлов, в другом (см. упражнение 5.18). Нарисуйте дерево типа 
"объединяй и властвуй" с 11, 15, 16 и 23 узлами. 

5.77 Докажите методом индукции, что длина внутреннего пути дерева типа "объе- 
диняй и властвуй" находится в пределах между N 1§УѴ и N 1§УѴ + N. 

5.78 Полное (сотріеіе) бинарное дерево — это дерево, в котором все уровни, кро- 
ме, возможно, последнего, который заполняется слева направо, заполнены, как 
проиллюстрировано на рис. 5.24. Докажите, что длина внутреннего пути полного 
дерева с N узлами лежит в пределах между N 1§УѴ и N 1§УѴ + N. 
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5.6 Обход дерева 

Прежде чем рассматривать алгоритмы, констру- 
ирующие бинарные деревья и деревья, рассмотрим 
алгоритмы для реализации наиболее общей функции 
обработки деревьев — обхода дерева ; при наличии 
указателя на дерево требуется систематически обра- 
ботать все узлы в дереве. В связном списке переход 
от одного узла к другому выполняется за счет отсле- 
живания единственной связи; однако, в случае де- 
ревьев приходится принимать решения, поскольку 
может существовать несколько связей, по которым 
можно следовать. 

Начнем рассмотрение с процесса для бинарных 
деревьев. В случае со связными списками имелись 
две основные возможности (см. программу 5.5): об- 
работать узел, а затем следовать связи (в этом слу- 
чае узлы посещались бы по порядку), или следовать 
связи, а затем обработать узел (в этом случае узлы 
посещались бы в обратном порядке). При работе с 
бинарными деревьями существуют две связи и, сле- 
довательно, три основных порядка возможного по- 
сещения узлов: 

■ Прямой обход (сверху вниз), при котором мы посещаем узел, а затем левое и пра- 
вое поддеревья 

■ Поперечный обход (слева направо), при котором мы посещаем левое поддерево, 
затем узел, а затем правое поддерево 

■ Обратный обход (снизу вверх), при котором мы посещаем левое и правое подде- 
ревья, а затем узел. 

Эти методы можно легко реализовать с помощью рекурсивной программы, как 
показано в программе 5.14, которая является непосредственным обобщением про- 
граммы 5.5 обхода связного списка. Для реализации обходов в других порядках дос- 
таточно соответствующим образом переставить вызовы функций в программе 5.14. 
Порядок посещения узлов в примере дереза при использовании каждого из порядков 
обхода показан на рис. 5.26. На рис. 5.25 приведена последовательность вызовов фун- 
кций, которые выполняются при вызове программы 5.14 применительно к примеру 
дерева из рис. 5.26. 

Программа 5.14 Рекурсивный обход дерева 

Эта рекурсивная функция принимает в качестве аргумента ссылку на дерево и 
вызывает функцию ѵізі* для каждого из узлов дерева. В приведенном виде функция 
реализует прямой обход; если поместить обращение к ѵізіі между рекурсивными 
вызовами, получится поперечный обход; а вели поместить обращение к ѵізіі после 
рекурсивных вызовов — то обратный обход. 


ЛлХ*Л 



РИСУНОК 5.24 ПОЛНЫЕ БИНАРНЫЕ 
ДЕРЕВЬЯ С СЕМЬЮ И ДЕСЯТЬЮ 
ВНУТРЕННИМИ УЗЛАМИ 

Когда количество внешних узлов 
является степенью 2 (верхний 
рисунок), все внешние узлы в полном 
бинарном дереве располагаются на 
одном уровне. В противном случае 
(нижний рисунок) внешние узлы 
располагаются в двух уровнях при 
размещении внутренних узлов слева 
от внешних узлов предпоследнего 
уровня. 
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ѵоісі ѣгаѵегзе (Ііпк Ь, ѵоісі ѵізіі(ііпк)) 
{ 

(Ь == 0) геЪигп; 
ѵізіѣ (Ь) ; 

ѣгаѵегзе (Ь->1 , ѵізіѣ) ; 
ѣгаѵегзе (Ь->г , ѵізіЪ) ; 

} 


С этими же основными рекурсивными процессами, на которых основываются раз- 


личные методы обхода дерева, мы уже встречались в рекурсивных программах типа 
"разделяй и властвуй" (см. рис. 5.8 и 5.11) и в арифметических выражениях. Например, 
выполнение прямого обхода соответствует рисованию вначале меток на линейке, а 
затем выполнению рекурсивных вызовов (см. рис. 5.11); выполнение поперечного об- 
хода соответствует перемещению самого большого диска в решении задачи о ханой- 
ских башнях между рекурсивными вызовами, которые перемещают все остальные 
диски; выполнение обратного обхода соответствует вычислению постфиксных выра- 
жений и т.д. Эти соответствия позволяют немедленно заглянуть внутрь механизмов, 
лежащих в основе обхода дерева. Например, известно, что 
при поперечном обходе каждый второй узел является вне- 


шним, по той же причине, по какой при решении задачи о 
ханойских башнях каждое второе перемещение затрагивает 
маленький диск. 


■Ьгаѵегзе Е 
ѵізі-Ь Е 
-Ьгаѵегзе д 
ѵізі-Ь 0 


Полезно также рассмотреть нерекурсивные реализации, в 
которых используется явный стек. Для простоты мы начнем 
с рассмотрения абстрактного стека, содержащего элементы 
дерева, инициализированного деревом, которое требуется 
обойти. Затем мы войдем в цикл, в котором выталкивается 
и обрабатывается верхняя запись стека, и который продол- 
жается, пока стек не опустеет. Если вытолкнутая запись яв- 


-Ьгаѵегзе В 
ѵізіг В 
-Ьгаѵегзе А 
ѵізіѣ А 
-Ьгаѵегзе * 
-Ьгаѵегзе * 
-Ьгаѵегзе С 
ѵізіѣ С 
-Ьгаѵегзе * 


ляется элементом, мы посещаем его; если вытолкнутая за- 
пись — дерево, мы выполняем последовательность операций 
выталкивания, которая зависит от требуемого порядка: 

■ Для прямого обхода заталкивается правое поддерево, за- 
тем левое поддерево, а затем узел. 

■ Для поперечного обхода заталкивается правое поддерево, 
затем узел, а затем левое поддерево. 

■ Для обратного обхода заталкивается узел, затем правое 


-Ьгаѵегзе * 
■Ьгаѵегзе * 
■Ьгаѵегзе Н 
ѵізі-Ь Н 
■Ьгаѵегзе Е 
ѵізі-Ь Г 
-Ьгаѵегзе * 
-Ьгаѵегзе 0 
ѵізіѣ С 
■Ьгаѵегзе * 
-Ьгаѵегзе * 


поддерево, а затем левое поддерево. 


-Ьгаѵегзе * 


Нулевые деревья в стек не заталкиваются. На рис. 5.27 
показано содержимое стека при использовании каждого из 
этих трех методов для обхода примера дерева, приведенно- 
го на рис. 5.26. Методом индукции можно легко убедиться, 
что для любого бинарного дерева этот метод приводит к та- 
кому же результату, как и рекурсивный метод. 


РИСУНОК 5.25 ВЫЗОВЫ 
ФУНКЦИЙ ПРЯМОГО 
ОБХОДА 

Эта последовательность 
вызовов функций 
определяет прямой обход 
для примера дерева, 
показанного на рис. 5.26. 
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СУНОК 5.26 

Эти последовав 
(в центре) и об) 


ОБХОДА 

показыва 
трава) об> 
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РИСУНОК 5.27 СОДЕРЖИМОЕ СТЕКА 
ДЛЯ АЛГОРИТМОВ ОБХОДА ДЕРЕВА 


Эти последовательности 
отражают содержимое стека для 
прямого (слева), поперечного 
(в центре) и обратного (справа) 
обхода дерева (см. рис. 5.26) для 
идеализированной модели 
вычислений , аналогичной 
использованной в примере на рис. 5.5, 
когда элемент и два его поддерева 
помещаются в стек в указанном 
порядке. 
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Описанная в предыдущем абзаце схема является концептуальной, охватывающей 
три метода обхода дерева, однако реализации, используемые на практике, несколь- 
ко проще. Например, для выполнения прямого обхода не обязательно заталкивать 
узлы в стек (мы посещаем корень каждого выталкиваемого дерева), поэтому можно 
воспользоваться простым стеком, состоящим только из одного типа элементов (свя- 
зей дерева), как это сделано в нерекурсивной реализации в программе 5.15. Систем- 
ный стек, поддерживающий рекурсивную программу, содержит адреса возврата и зна- 
чения аргументов, а не элементы или узлы, но фактическая последовательность 
выполнения вычислений (посещения узлов) остается одинаковой для рекурсивного 
метода и метода с использованием стека. 


Программа 5.15 Прямой обход (нерекурсивная реализация) 


Эта нерекурсивная функция с использованием стека — функциональный эквивалент ее 
рекурсивного аналога, программы 5.14. 


ѵоісі ѣгаѵегзе (Ііпк Ь, ѵоісі ѵізіѣ(ііпк)) 
{ 5ТАСК<1іп]с> з (хпах) ; 

з .ризЬ(Ъ) ; 

ѵЬіІе ( ! з .етр'Ьу () ) 

{ 


ѵізі'МЪ = з.рорО); 

(Ъ->г != 0) 8 .ризЬ (Ь->г) ; 

(Ъ->1 != 0) з .ризЬ (Ь->1) ; 


} 


Четвертая естественная стратегия обхода — простое посещение узлов дерева в по- 
рядке, в котором они отображаются на странице — сверху вниз и слева направо. Этот 
метод называется обходом по уровням , поскольку все узлы каждого уровня посещают- 
ся вместе, по порядку. Посещение узлов дерева, показанного на рис. 5.26, при обходе 
по уровням показано на рис. 5.28. 

Как ни удивительно, обход по уровням можно получить, заменив в программе 
5.15 стек очередью, что демонстрирует программа 5.16. Для реализации прямого об- 
хода используется структура данных типа "последним вошел, первым вышел" (ЫРО); 
для реализации обхода по уровням используется структура данных типа "первым во- 
шел, первым вышел" (РІРО). Эти программы заслуживают внимательного изучения, 
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поскольку они представляют существенно различающиеся 
подходы к организации остающейся невыполненной рабо- 
ты. В частности, обход по уровням не соответствует рекур- 
сивной реализации, связанной с рекурсивной структурой 
дерева. 

Программа 5.16 Обход по уровням 

.1 — ■ — ■■■ ■ ■ I . ..I . ■ ■ . ,1.. III. I .... *І— ...М. ■■■■-■ — , ■ ■■■■!. ■■■ 

Изменение структуры данных, лежащей в основе прямого обхода 
(см. программу 5.15) со стека на очередь приводит к 
преобразованию обхода в обход по уровням. 

ѵоісі ѣгаѵегзе (Ііпк Ь, ѵоісі ѵізіі: (Ііпк) ) 

{ 0ЦЕЦЕ<1іпк> д(тах) ; 

Я.риЪ(Ь) ; 

ѵЬіІе ( ! д.етрѣу () ) 

{ 

ѵізі'Ъ (1і = д.дв1()); 

(Ь->1 != 0) д.риі(Ь->1); 

іі: (Ь->г != 0) д.риі: (Ь->г) ; 

} 

} 


Прямой обход, обратный обход и обход по уровням од- 
нозначно определяются и для боров. Чтобы определения 
были единообразными, представьте себе бор в виде дерева 
с воображаемым корнем. Тогда правило для прямого обхода 
формулируется следующим образом: "посетить корень, а 
затем каждое из поддеревьев"; а правило для обратного об- 
хода — "посетить каждое из поддеревьев, а затем корень". 
Правило для обхода по уровням то же, что и для бинарных 
деревьев. Непосредственные реализации этих методов — 
простые обобщения программ прямого обхода с использо- 
ванием стека (программы 5.14 и 5.15) и программы обхода 
по уровням с использованием очереди (программа 5.16) 
для бинарных деревьев, которые мы только что рассмотре- 
ли. Соображения по поводу реализаций не приводятся, по- 
скольку в разделе 5.8 мы рассмотрели более общую проце- 
дуру* 


Упражнения 


> 5.79 Приведите порядок посещения узлов для прямого, 
поперечного, обратного и обхода по уровням для следу- 
ющих бинарных деревьев: 











РИСУНОК 5.28 ОБХОД ПО 
УРОВНЯМ 

Эта последовательность 
отображает результат 
посещения узлов дерева в 
порядке сверху вниз и 
слева направо. 


1> 5.80 Отразите содержимое очереди во время обхода по уровням (программа 5.16) 
на рис. 5.28, аналогично показанному на рис. 5.27. 
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5.81 Покажите, что прямой обход бора равноценен прямому обходу соответству- 
ющего бинарного дерева (см. лемму 5.4), а обратный обход бора совпадает с по- 
перечным обходом бинарного дерева. 

о 5.82 Приведите нерекурсивную реализацию поперечного обхода. 

• 5.83 Приведите нерекурсивную реализацию обратного обхода. 

• 5.84 Создайте программу, которая преобразует прямой и поперечный обходы 
бинарного дерева в обход дерева по уровням. 

5.7 Рекурсивные алгоритмы бинарных деревьев 

Алгоритмы обхода дерева, рассмотренные в разделе 5.6, наглядно демонстриру- 
ют необходимость рассмотрения рекурсивных алгоритмов бинарных деревьев, что 
обусловлено самой рекурсивной структурой этих деревьев. Для решения многих за- 
дач можно непосредственно применять рекурсивные алгоритмы типа "разделяй и 
властвуй", которые, по существу, обобщают алгоритмы обхода деревьев. Обработка 
дерева выполняется посредством обработки корневого узла и (рекурсивно) его под- 
деревьев; вычисление можно выполнять перед, между или после рекурсивных вызо- 
вов (или же использовать все три метода). 

Часто требуется определять различные структурные параметры дерева, имея толь- 
ко ссылку на дерево. Например, программа 5.17 содержит рекурсивные функции для 
вычисления количества узлов и высоту заданного дерева. Функции определяются не- 
посредственно исходя из определения 5.6. Ни одна из этих функций не зависит от 
порядка обработки рекурсивных вызовов: они обрабатывают все узлы дерева и воз- 
вращают одинаковый результат, если, например, рекурсивные вызовы поменять ме- 
стами. Не все параметры дерева вычисляются так легко: например, программа для эф- 
фективного вычисления длины внутреннего пути бинарного дерева является более 
сложной (см. упражнения 5.88—5.90). 

Программа 5.17 Вычисление параметров дерева 

Для выяснения базовых структурных свойств дерева можно использовать простые 
рекурсивные процедуры, подобные следующим. 

іпЪ соипі:(1іпк Ъ) 

{ 

іі: (Ъ. == 0) геѣигп 0; 

геѣигп соипі: (Ь->1) + соипі:(Ь->г) + 1; 

> 

іпѣ ЬеідЫ(1іпк Ь) 

{ 

іі: (Ь == 0) геі:игп -1; 

іпі. и = ЬеідЬѢ (Ь->1) , ѵ = ЬеідЬ'Ь (Ь->г) ; 

(и > ѵ) геѣигп и+1 ; еізе гейигп ѵ+1 ; 

} 


Еще одна функция, которая полезна при создании программ, обрабатывающих 
деревья, — функция, которая выводит на печать структуру или рисует дерево. Напри- 
мер, программа 5.18 — рекурсивная процедура, выводящая дерево в формате, при- 
веденном на рис. 5.29. Эту же базовую рекурсивную схему можно использовать для 
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рисования более сложных представлений деревьев, 
подобным использованным на рисунках в этой кни- 
ге (см. упражнение 5.85). 

Программа 5.18 Функция быстрого вывода дерева 

Эта рекурсивная программа отслеживает высоту дерева и 
использует эту информацию для вывода его представления, 
которое можно использовать при отладке программ 
обработки деревьев (см. рис. 5.29). В программе 
предполагается, что элементы в узлах имеют тип Нет, для 
которого определена перегруженная операция «. 

ѵоісі ргіп’Ьпосіе (Нет х , іпѣ Ь) 

{ ^ог (ііѵЬ і = 0; і < Ь; і++) сои! « " 
соиі: « х « епсіі ; 

> 

ѵоісі зЬсж(1іпк Ь, іп-Ь Ь) 

{ 

(і ея 0) { ргіпітосіе ( ’ * ' , К); геііигп; 

> 

зЬо*(Ъ->г, Ы1) ; 
ргіпѣпосіе (-Ь-^і-Ьет, Ь) ; 
зЬоѵг (^->1, Ы-1) ; 



РИСУНОК 5.29 ВЫВОД ДЕРЕВА 
(ПРИ ПОПЕРЕЧНОМ ОБХОДЕ И 
ПРЯМОМ ОБХОДЕ) 

Вывод , приведенный на рисунке 
слева , получен в результате 
использования программы 5. 18 
применительно к примеру дерева , 
приведенному на рис . 5 . 26 , и он 
демонстрирует структуру дерева 


> 


аналогично использованному 
графическому представлению , 
повернутому на 90 градусов. 
Вывод , показанный на рисунке 
справа , получен в результате 
выполнения этой же программы 
при перемещении оператора 
вывода в начало программы; он 
демонстрирует структуру дерева 
в привычном формате. 


Программа 5.18 выполняет поперечный обход, но 
если выводить элемент перед рекурсивными вызова- 
ми, получаем прямой обход; этот вариант также при- 
веден на рис. 5.29. Этот формат привычен, например, 
при отображении генеалогического дерева, списка 
файлов в файловой структуре в виде дерева или при 
создании структуры печатного документа. Например, 
выполнение прямого обхода дерева, отображенного 
на рис. 5.19, приводит к выводу варианта таблицы оглавления этой книги. 

Вначале рассмотрим пример программы, которая строит явную структуру дерева, 
связанного с приложением определения максимума, которая была рассмотрена в раз- 
деле 5.2. Наша цель — построение турнира — бинарного дерева, в котором элемен- 
том каждого внутреннего узла является копия большего из элементов его двух дочер- 
них элементов. В частности, элемент в корне — копия наибольшего элемента в 
турнире. Элементы в листья (узлах, которые не имеют дочерних узлов) образуют 
представляющие интерес данные, а остальная часть дерева — структура данных, ко- 


торая позволяет эффективно находить наибольший из элементов. 

Программа 5.19 — рекурсивная программа, которая строит турнир из элементов 
массива. Будучи расширенной версией программы 5.6, она использует стратегию "раз- 
деляй и властвуй": чтобы построить турнир для единственного элемента, программа 
создает лист, содержащий этот элемент, и выполняет возврат. Чтобы построить тур- 
нир для N > 1 элементов, в программе используется стратегия "разделяй и властвуй": 
программа делит все множество элементов пополам, строит турнир для каждой по- 
ловины и создает новый узел со связями с двумя турнирами и с элементом, который 
является копией большего элемента в корнях обоих турниров. 
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Программа 5.19 Конструирование турнира 

Эта рекурсивная функция делит массив а[1], а[г] на две части а[1], а[т] и 
а[т+1], а[г], строит турниры для двух частей (рекурсивно) и создает турнир для 

всего массива, связывая новый узел с рекурсивно построенными турнирами и помещая 
в него копию большего элемента в корнях двух рекурсивно построенных турниров. 

зѣгисЪ посіе 

{ Ііет іѣет; посіе *1, *г; 
посіе (Іѣет х) 

{ іѣет = х ; 1 = 0; г = 0; } 

> ; 

ѣуресіе^ посіе* Ііпк; 

Ііпк шах (Нет а [ ] , іп'Ь 1, іпѣ г) 

{ іп'Ь т = (1+г)/2; 

Ііпк х = пеѵ посіе (а [т] ) ; 

(1 == г) геіигп х; 
х->1 = тах(а, 1, т) ; 
х->г = тах(а, т+1, г); 

Нет и = х->1->±Ъ&т, ѵ = х->г->±Ъвт; 

(и > ѵ) 

х->і-Ьвт = и; еізе х->і-Ьет = ѵ; 
геѣигп х; 

} 


На рис. 5.30 приведен пример явной структуры дерева, построенной программой 
5.19. Построение таких рекурсивных структур — вероятно, предпочтительней отыс- 
канию максимума путем просмотра данных, как это было сделано в программе 5.6, 
поскольку структура дерева обеспечивает определенную гибкость для выполнения 
других операций. Важным примером служит и сама операция, использованная для 
построения турнира. При наличии двух турниров их можно объединить в один тур- 
нир, создав новый узел, левая связь которого указывает на один турнир, а правая на 
другой, и приняв больший из двух элементов (помещенных в корнях двух данных 
турниров) в качестве наибольшего элемента объединенного турнира. Можно также 
рассмотреть алгоритмы добавления и удаления элементов и выполнения других опе- 
раций. Здесь мы не станем рассматривать такие операции, поскольку аналогичные 
структуры данных, обладающие подобной гибкостью, исследуются в главе 9. 



РИСУНОК 5.30 ЯВНОЕ ДЕРЕВО ДЛЯ ОТЫСКАНИЯ МАКСИМУМА (ТУРНИР) 

На этом рисунке отображена структура дерева, сконструированная программой 5. 19 на основании 
ввода элементов АМР Ь Е. Элементы данных помещаются в листьях. Каждый внутренний узел 
содержит копию большего из элементов в двух дочерних узлах , следовательно, в соответствии с 
методом индукции наибольшим элементом является корень. 








Часть 2 . Структуры данных 


Действительно, реализации с использованием де- 
ревьев для нескольких из обобщенных абстрактных 
типов данных (АТО) запросов, рассмотренных в раз- 
деле 4.6, относятся к основной теме большей части 
этой книги. В частности, многие из алгоритмов, при- 
веденных в главах 12—15, основываются на деревьях 
бинарного поиска (Ыпагу зеагсИ ігее), которые являются 
явными деревьями, соответствующими бинарному по- 
иску, аналогично тому, как явная структура на рис. 

5.30 взаимосвязана с рекурсивным алгоритмом отыс- 
кания максимума (см. рис. 5.6). Сложность реализации 
и использования таких структур заключается в обеспе- 
чении эффективности алгоритмов после выполнения 
большого числа операций вставки , удаления и других 
операций. 

Вторым примером программы создания бинарно- 
го дерева служит измененная версия программы 
оценки префиксного выражения, приведенной в раз- 
деле 5.1 (программа 5.4), которая создает дерево, 
представляющее префиксное выражение, а не просто 
оценивает его (см. рис. 5.31). В программе 5.20 ис- 
пользуется та же рекурсивная схема, что и в программе 5.4, но рекурсивная функция 
возвращает ссылку на дерево, а не значение. Программа создает новый узел дерева 
для каждого символа в выражении: узлы, которые соответствуют операциям, имеют 
связи со своими операндами, а узлы листьев содержат переменные (или константы), 
которые являются входными данными выражения. 

Программа 5.20 Создание дерева синтаксического анализа 

— і ... і і — . .і. ■ і — — і — і ■ ■■ ■ ■ і ■■■ ■ . і . . и . ... — ■ і . — — ■ і — — 

Используй ту же стратегию, которая была задействована при оценке префиксных 
выражений (см. программу 5.4), эта программа создает дерево синтаксического 
анализа из префиксного выражения. Для простоты предполагается, что операндами 
являются одиночные символы. Каждый вызов рекурсивной функции создает новый узел, 
передавая в него в качестве лексемы следующий символ из массива входных данных. 
Если лексема представляет собой операнд, программа возвращает новый узел, а если 
операция — то устанавливает левый и правый указатели на дерево, построенное 
(рекурсивно) для двух аргументов. 

сЬаг *а; іпѣ і; 
зѣгисі: посіе 

{ Нет Пет; посіе *1, *г; 

посіе (Нет х) 

{ Нет = х ; 1 = 0; г = 0; } 

} ; 



РИСУНОК 5.31 ДЕРЕВО 
СИНТАКСИЧЕСКОГО АНАЛИЗА 

Это дерево создается 
программой 5.20 для префиксного 
выражения * + а**Ъс + с1еГ. 
Оно представляет собой 
естественный метод 
представления выражения: 
каждый операнд размещается в 
листе (который отображен в 
качестве внешнего узла), а 
каждая операция, которая 
должна применяться к 
выражению, представлена левым 
и правым поддеревьями узла, 
содержащего операцию. 


Ііпк рагзе() 

{ сНаг -Ь = а[і++]; Ііпк х = пеѵ посіе (ѣ); 
И ((1: == ' + ') || <* == '*')) 

{ х->1 = рагзе(); х->г = рагзе(); } 
геѣигп х; 

} 
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В программах трансляции, подобных компиляторам, часто используются такие 
внутренние представления программ в виде деревьев, поскольку деревья удобны для 
достижения многих целей. Например, можно представить операнд, соответствующие 
переменным, принимающим значения, и сгенерировать машинный код для оценки 
выражения, представленного в виде дерева с обратным обходом. Либо же можно вос- 
пользоваться деревом с поперечным обходом для вывода выражения в инфиксной 
форме или дерево с обратным обходом — для вывода выражения в постфиксной фор- 
ме. 

В этом разделе было рассмотрено несколько примеров, подтверждающих концеп- 
цию о возможности создания и обработки структур явных связных деревьев с помо- 
щью рекурсивных программ. Чтобы этот подход стал эффективным, потребуется 
учесть производительность различных алгоритмов, альтернативные представления, 
нерекурсивные альтернативы и ряд других нюансов. Однако, более подробное рас- 
смотрение программ обработки деревьев откладывается до главы 12, поскольку в гла- 
вах 7—11 деревья используются, в основном, в описательных целях. К реализациям 
явных деревьев мы вернемся в главе 12, поскольку они служат основой для многих 
алгоритмов, исследуемых в главах 12—15. 

Упражнения 

о 5.85 Измените программу 5.18, чтобы она выводила РозіЗсгірІ-программу, кото- 
рая рисует дерево в формате, подобном использованному на рис. 5.23, но без ма- 
леньких квадратов, представляющих внешние узлы. Используйте операторы 
тоѵеіо и Ііпеіо для рисования линий и оператор 

/посіе {пеѵраЪіі тоѵеѣо сиггѳп'Ьроіп'Ь 4 0 360 агс 1:111} сіеі: 

для рисования узлов. После инициализации этого определения вызов посіе приводит 
к рисованию черной точки в точке с координатами, помещенными в стек (см. раз- 
дел 4.3). 

> 5.86 Создайте программу, которая подсчитывает листья в бинарном дереве. 

> 5.87 Создайте программу, которая подсчитывает количество узлов в бинарном де- 
реве с одним внешним и одним внутренним дочерними деревьями. 

О 5.88 Создайте рекурсивную программу, которая вычисляет длину внутреннего 
пути бинарного дерева, используя определение 5.6. 

5.89 Определите количество вызовов функций, выполненных программой при 
вычислении длины внутреннего пути бинарного дерева. Докажите ответ методом 
индукции. 

• 5.90 Создайте рекурсивную программу, которая вычисляет длину внутреннего 
пути бинарного дерева за время, которое пропорционально количеству узлов в де- 
реве. 

о 5.91 Создайте рекурсивную программу, которая удаляет из турнира все листья с 
заданным ключом (см. упражнение 5.59). 




Часть 2. Структуры данных 


5.8 Обход графа 

В качестве заключительного примера в этой главе рассмотрим одну из наиболее 
важных рекурсивных программ: рекурсивный обход графа, или поиск в глубину (сіерік- 
Дгзі веагсН). Этот метод симметричного посещения всех узлов графа — непосредствен- 
ное обобщение методов обхода деревьев, рассмотренных в разделе 5.6, и он служит 
основой для многих базовых алгоритмов обработки графов (см. часть 7). Это простой 
рекурсивный алгоритм. Начиная с любого узла ѵ, мы 

■ посещаем ѵ; 

■ (рекурсивно) посещаем каждый ( непосещенный ) узел, связанный с ѵ. 

Если граф является связным, со временем будут посещены все узлы. Программа 
5.21 демонстрирует реализацию этой рекурсивной процедуры. 

Программа 5.21 Поиск в глубину 

Для посещения в графе всех узлов, связанных с узлом к, мы 
помечаем его как посещенный, а затем (рекурсивно) посещаем 
все непосещенные узлы в списке смежности для узла к. 

ѵоісі ѣгаѵегзѳ (іпѣ к, ѵоісі ѵізіѣ(іпЪ)) 

{ ѵізі'Ь(к); ѵізіѣесі[к] = 1; 

^ог (Ііпк 1 = асіз [к] ; Ь != 0; Ь = Ъ->пех-Ь) 

( !ѵіз±1зді[ѣ->ѵ] ) Ігаѵегзе (ѣ->ѵ, ѵізіѣ) ; 

} 


Например, предположим, что используется представление 
в виде списка соседних узлов, описанное в примере графа на 
рис. 3.15. На рис. 5.32 показаны последовательность вызовов, 
выполненных при поиске в глубину в этом графе, а после- 
довательность прохождения ребер графа находится в левой 
части рис. 5.33. При прохождении каждого из ребер графа 
возможны два исхода: если ребро приводит к уже посещен- 
ному узлу, мы игнорируем его; если оно приводит к еще не 
посещенному узлу, мы переходим к нему через рекурсив- 
ный вызов. Набор всех просмотренных таким образом ребер 
образует остовное дерево графа. 

Различие между поиском в глубину и общим обходом де- 
рева (см. программу 5.14) состоит в том, что необходимо 
явно исключить посещение уже посещенных узлов. В дере- 
ве мы никогда не встречаемся с такими узлами. Действитель- 
но, если граф является деревом, рекурсивный поиск в глуби- 
ну, начинающийся с корня, эквивалентен прямому обходу. 

Лемма 5.10 Время, требующееся для выполнения поиска в 
глубину в графе с V вершинами и Е ребрами, пропорционально 
V + Е, если использовать представление графа в виде 
списков смежности. 

В представлении в виде списков смежности каждому реб- 
ру графа соответствует один узел в списке, а каждой вер- 



ѴІЗІІ О 

ѴІЗІІ 7 (ІІГЗІ ОП 0'5 ІІ5І) 

ѴІЗІІ 1 (ІІГ5І ОП 7'3 ІІЗІ) 
сЬеск 7 оп 1 з Іізі 
сЬеск 0 оп Гз Іізі 
ѵізіі 2 (зесопсі оп 7'в Іізі) 
сЬеск 7 оп 2’з Іізі 
сЬеск 0 оп 2’з Іізі 
сЬеск 0 оп 7’з Іізі 
ѵізіі 4 (іоигіЬ оп 7'8 іій!) 

ѴІ5ІІ б (ЙГ5І ОП 4*5 ІІ5І) 

сЬеск 4 оп 6’ 5 ІІ5І 
сЬеск 0 оп 6'5 Іізі 
ѵізіі 5 (зесопсі оп 4'$ Іізі) 
сЬеск 0 оп 5’з Іізі 
сЬеск 4 оп 5'з Іізі 
ѵізіі 3 (ІІіігсІ оп 5 з Іізі) 
сЬеск 5 оп З’з Іізі 
сЬеск 4 оп З’з Іізі 
сЬеск 7 оп 4'з Іізі 
сЬеск 3 оп 4з Іізі 
сЬеск 5 оп О'з Іізі 
сЬеск 2 оп О'з ІІ5І 
сЬеск 1 оп О’з Іізі 
сЬеск 6 оп О’з Іізі 

РИСУНОК 5.32 ВЫЗОВЫ 
ФУНКЦИЙ ПОИСКА В 
ГЛУБИНУ 

Эта последовательность 
вызовов функций 
реализует поиск в глубину 
для примера графа, 
приведенного на рис. 

3. 15. Дерево, которое 
описывает структуру 
рекурсивных вызовов 
(вверху), называется 
деревом поиска в глубину. 




Глава 5. Рекурсия и деревья 


РИСУНОК 5.33 ПОИСК В ГЛУБИНУ 
И ПОИСК В ШИРИНУ 

При поиске в глубину (слева) 
переход выполняется от узла к 
узлу у с возвратом к 
предшествующему узлу с целью 
проверки следующей 
возможности, когда все соседние 
связи данного узла проверены. При 
поиске в ширину ( справа), до 
перехода к следующему узлу 
сначала должны быть перебраны 
все возможности для данного 
узла. 
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шине графа соответствует один указатель на начало списка. Поиск в глубину зат- 
рагивает каждый из них не более одного раза. 

Поскольку время, необходимое для построения представления в виде списков 
смежности из последовательности ребер (см. программу 3.19), также пропорциональ- 
но V + Е, поиск в глубину обеспечивает линейное по отношению к затрачиваемому 
времени решение задачи связности из главы 1. Однако для очень больших графов 
решения ипіоп-Гіпсі все же могут оказаться предпочтительнее, поскольку для пред- 
ставления всего графа требуется объем памяти, пропорциональный Е, в то время как 
для решений ипіоп-Гіпсі необходим объем памяти, который пропорционален только 
V. 

Подобно тому как это было сделано в случае с обходом дерева, можно определить 
метод обхода графа, при котором используется явный стек, как показано на рис. 5.34. 
Моно представить себе абстрактный стек, содержащий двойные записи: узел и ука- 
затель на список смежности для этого узла. Когда стек инициализируется начальным 
узлом, а указатель — первым элементом списка смежности для этого узла, алгоритм 
поиска в глубину эквивалентен входу в цикл, в котором сначала посещается узел в 
верхней части стека (если он еще не был посещен); затем сохраняется узел, указан- 
ный текущим указателем списка смежности; далее, ссылка из списка смежности об- 
новляется следующим узлом (с выталкиванием записи, если достигнут конец списка 
смежности); и, наконец, запись стека для сохраненного узла заталкивается со ссыл- 
кой на первый узел его списка смежности. 


РИСУНОК 5.34 ДИНАМИКА 
СТЕКА ПОИСКА В ГЛУБИНУ 

Стек , поддерживающий поиск в 
глубину , можно представить себе 
как содержащий узел и ссылку на 
список смежности для этого узла 
(он показан узлом, заключенным 
в окружность) (слева). Таким 
образом, обработка в стеке 
начинается с узла 0, т.е. со 
ссылки на первый узел в его 
списке смежности — узел 7. 
Каждая строка отражает 
результат выталкивания из 
стека, занесения ссылки на 
следующий узел в списке 
посещенных узлов и занесения в 
стек записи для непосещенных 
узлов. Процесс также можно 
предстаёитъ в виде простого 
заталкивания в стек всех узлов, 
смежных с любым непосещенным 
узлом (справа). 
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Или же, подобно тому, как это было сделано для обхода дерева, можно создать 
стек, содержащий только ссылки на узлы. Когда стек инициализируется начальным 
узлом, мы входим в цикл, в котором посещаем узел в верхней части стека (если он 
еще не был посещен), затем заталкиваем в стек все соседние узлы этого узла. Рису- 
нок 5.34 иллюстрирует, что для нашего примера графа оба метода эквивалентны по- 
иску в глубину, причем эквивалентность сохраняется и в общем случае. 

Алгоритм посещения верхнего узла и заталкивания всех его соседей — простая 
формулировка поиска в глубину, но из рис. 5.34 понятно, что этому метод присущ 
недостаток возможного оставления в стеке нескольких копий каждого узла. Это про- 
исходит даже в случае проверки, посещался ли каждый узел, который должен быть 
помещен в стек, и если да, то отказа от занесения в стек такого узла. Во избежание 
упомянутой проблемы можно воспользоваться реализацией стека, которая запреща- 
ет дублирование за счет применения стратегии "забывания старого элемента": по- 
скольку ближайшая к верхушке стека копия всегда посещается первой, все остальные 
копии просто выталкиваются из стека. 

Динамика состояния стека для поиска в глубину, показанная на рис. 5.34, основана 
на том, что узлы каждого списка соседних узлов появляются в стеке в том же поряд- 
ке, что и в списке. Для получения этого порядка для данного списка смежности при 
заталкивании узлов по одному, вначале следовало бы затолкнуть в стек последний 
узел, затем предпоследний и т.д. Более того, чтобы ограничить размер стека числом 
вершин при одновременном посещении узлов в том же порядке, как и при поиске в 
глубину, необходимо использовать стек, в котором реализуется стратегия "забывания 
старого элемента". Если посещение узлов в том же порядке, что и при поиске в глу- 
бину, не имеет значения, обоих этих осложнений можно избежать и непосредствен- 
но сформулировать нерекурсивный метод обхода графа с использованием стека, ко- 
торый выглядит так. После инициализации стека начальным узлом мы входим в цикл, 
в котором посещаем узел на верхушке стека, затем обрабатываем его список смеж- 
ности, помещая в стек каждый узел (если он еще не был посещен) и используя реа- 
лизацию стека, которая за счет применения стратегии "игнорирования нового эле- 
мента" запрещает дублирование. Этот алгоритм обеспечивает посещение всех узлов 
графа, подобно поиску в глубину, но не является рекурсивным. 

Алгоритм, описанный в предыдущем абзаце, заслуживает внимания, поскольку 
можно было бы воспользоваться любым обобщенным абстрактным типом данных 
очереди и все же посетить каждый из узлов графа (плюс сгенерировать развернутое 
дерево). Например, если вместо стека задействовать очередь, то получится поиск в 
ширину , который аналогичен обходу дерева по уровням. Программа 5.22 — реализа- 
ция этого метода (при условии, что используется реализация с применением очере- 
ди, подобная программе 4.12); пример этого алгоритма в действии показан на рис. 
5.35. В части 6 будет исследоваться множество алгоритмов обработки графов, осно- 
ванных на более сложных обобщенных абстрактных типах данных очереди. 




Часть 2. Структуры данных 


РИСУНОК 5.35 ДИНАМИКА ОЧЕРЕДИ 
ПОИСКА В ШИРИНУ 

Обработка начинается с узла 0 в очереди, 
затем мы получаем узел 0, посещаем его и 
помещаем в очередь узлы 7521 6 из его 
списка смежности, причем именно в этом 
порядке. Затем мы получаем узел 7, 
посещаем его и помещаем в очередь узлы из 
его списка смежности, и т.д. В случае 
запрета дублирования через стратегию 
' игнорирования нового элемента" (справа) 
мы получаем такой же результат без 
наличия каких-либо лишних записей 
очереди. 

Программа 5.22 Поиск в ширину 

Чтобы посетить в графе все узлы, связанные с узлом к , к помещается в очередь ПРО, 
затем выполняется цикл, в котором из очереди получается следующий узел и, если он 
еще не был посещен, он посещается и в стек заталкиваются все непосещенные узлы 
из его списка смежности; процесс продолжается до тех пор, пока очередь не опустеет. 

ѵоісі Ъгаѵегзе (іп*Ь к, ѵоісі ѵізіі (іпѣ) ) 

{ 

ОЦЕЦЕ<іп , Ь> я (Ѵ*Ѵ) ; 

Я.риЪ(к) ; 

ѵЫІе ( ! я . етр-Ьу ( ) ) 

іі? (ѵізі‘Ьѳсі[к = д.деЬ()] = 0) 

{ 

ѵізі*Ь(к) ; ѵізі*ЬесІ[к] = 1; 

Еот (Ііпк Ь = асі} [к] ; Ь != 0; Ь = 1->пех1;) 
іі? (ѵізі , Ъе<і[ѣ->ѵ] == 0) я-Р 11 ^ (*Ь->ѵ) ; 

} 

} 
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При использовании обоих методов поиска в ширину и в глубину посещаются все 
узлы графа, но их способ достижения этого различается коренным образом, что де- 
монстрирует рис. 5.36. Поиск в ширину подобен армии исследователей, разосланной 
во все стороны с целью охвата всей территории; поиск в глубину соответствует един- 
ственному исследователю, который как можно дальше проникает вглубь неизведан- 
ной территории, возвращаясь только в случае, если наталкивается на тупик. Таковы 
базовые методы решения задач, играющие существенную роль во многих областях 
компьютерных наук, а не только в контексте поиска в графах. 

Упражнения 

5.92 Принимая во внимание диаграммы, соответствующие рис. 5.33 (слева) и 5.34 
(справа), покажите, как происходит посещение узлов в графе, построенном для 
последовательности ребер 0-2, 1-4, 2-5, 3-6, 0-4, 6-0 и 1-3 (см. упражнение 3.70), 
при рекурсивном поиске в глубину. 

5.93 Принимая во внимание диаграммы, соответствующие рис. 5.33 (слева) и 5.34 
(справа), покажите, как происходит посещение узлов в графе, построенном для 
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последовательности ребер 0-2, 1-4, 2-5, 3-6, 0-4, 6-0 и 
1-3 (см. упражнение 3.70), при поиске в глубину с ис- 
пользованием стека. 

5.94 Принимая во внимание диаграммы, соответствую- 
щие рис. 5.33 (слева) и 5.35 (справа), покажите, как про- 
исходит посещение узлов в графе, построенном для пос- 
ледовательности ребер 0-2, 1-4, 2-5, 3-6, 0-4, 6-0 и 1-3 
(см. упражнение 3.70), при поиске в ширину (с исполь- 
зованием очереди). 

о 5.95 Почему время выполнения, упоминаемое в лемме 
5.10, пропорционально V + Е, а не просто Е ? 

5.96 Принимая во внимание диаграммы, соответствую- 
щие рис. 5.33 (слева) и 5.35 (справа), покажите, как про- 
исходит посещение узлов в примере графа, приведен- 
ном в тексте (рис.3.15), при поиске в глубину с 
использованием стека с применением стратегии "забы- 
вания старого элемента". 

5.97 Принимая во внимание диаграммы, соответствую- 
щие рис. 5.33 (слева) и 5.35 (справа), покажите, как про- 
исходит посещение узлов в примере графа, приведен- 
ном в тексте (рис.3.15), при поиске в глубину с 
использованием стека с применением стратегии "игно- 
рирования нового элемента". 

> 5.98 Реализуйте поиск в глубину с использованием сте- 
ка для графов, которые представлены списками смеж- 
ности. 

о 5.99 Реализуйте рекурсивный поиск в глубину для гра- 
фов, которые представлены списками смежности. 

5.9 Перспективы 

Рекурсия лежит в основе ранних теоретических исследо- 
ваний природы вычислений. Рекурсивные функции и про- 
граммы играют главную роль в математических исследова- 
ниях, в которых предпринимается попытка разделения 
задач на поддающиеся решению на компьютере и на не- 
пригодные для этого. 

В ходе столь краткого рассмотрения просто невозмож- 
но полностью осветить столь обширные темы, как деревья 
и рекурсия. Многие наиболее показательные примеры ре- 
курсивных программ будут пребывать в центре внимания 
на протяжении всей книги -- к ним относятся алгоритмы 
типа "разделяй и властвуй" и рекурсивные структуры дан- 
ных, которые успешно применяются для решения широко- 
го спектра задач. Для многих приложений нет смысла вы- 




РИСУНОК 5.36 ДЕРЕВЬЯ 
ОБХОДА ГРАФОВ 

На этой схеме показаны 
поиск в глубину (в центре) 
и поиск в ширину ( внизу), 
выполненные на половину в 
большом графе (вверху). 
При поиске в глубину обход 
выполняется от одного 
узла к следующему, так 
что большинство узлов 
связано только с двумя 
другими. И напротив, при 
поиске в ширину 
перемещение по графу 
выполняется по всей 
области графа, с 
посещением всех узлов, 
связанных с данным, 
прежде чем двигаться 
дальше; поэтому 
некоторые узлы связаны со 
множеством других. 
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ходить за рамки простой непосредственной рекурсивной реализации; для других бу- 
дут рассматриваться методы, производные от альтернативных нерекурсивных и вос- 
ходящих реализаций. 

В этой книге основное внимание уделено практическим аспектам построения ре- 
курсивных программ и структур данных. Наша цель — применение рекурсии для со- 
здания изящных и эффективных реализаций. Для дрстижения этой цели необходимо 
особо учитывать опасности, сопряженные с использованием простых программ, ко- 
торое ведет к экспоненциальному увеличению количества вызовов функций или не- 
допустимо большой степени вложенности. Несмотря на этот недостаток, рекурсивные 
программы и структуры данных весьма привлекательны, поскольку часто они пре- 
доставляют индуктивные аргументы, которые помогают убедиться в правильности и 
эффективности разработанных программ. 

На протяжении всей книги деревья используются как для упрощения понимания 
динамических свойств программ, так и в качестве динамических структур данных. В 
главах с 12 по 15 особенно большое внимание уделяется манипулированию явными 
древовидными структурами. Свойства, описанные в этой главе, предоставляют основ- 
ную информацию, которая требуется для эффективного применения явных древовид- 
ных структур. 

Несмотря на свою центральную роль в разработке алгоритмов, рекурсия — вовсе 
не панацея на все случаи жизни. Как было показано при исследовании алгоритмов 
обхода деревьев и графов, алгоритмы с использованием стека (которые рекурсивны 
по своей природе) — не единственная возможность при необходимости управлять за- 
дачами с множеством вычислений. Эффективная технология разработки алгоритмов 
для решения многих задач заключается в использовании обобщенных реализаций с 
применением очередей, отличающихся от стеков, которые предоставляют свободу 
выбирать следующую задачу в соответствии с каким-либо более субъективным крите- 
рием, нежели простой выбор чего-либо последнего. Структуры данных и алгоритмы, 
которые эффективно поддерживают такие операции — основная тема главы 9, а со 
многими примерами их применения мы встретимся во время исследования алгорит- 
мов обработки графов в части 7. 

Ссылки для части 2 

Существует множество учебников для начинающих, посвященных структурам дан- 
ных. Например, в книге Стендиша (Зіапсіівіі) темы связных структур, абстракций дан- 
ных, стеков и очередей, распределения памяти и создания программ освещаются бо- 
лее подробно, чем здесь. Конечно, классические книги Кернигана и Ритчи 
(Кегпі§1іап-Яі1с1ііе) и Страуструпа (Зігоизігир) — бесценные источники подробной 
информации по реализациям С и С++. Книги Мейерса (Меуегв) также содержат по- 
лезную информацию о реализациях С++. 

Разработчики РозіЗсгірі, вероятно, не могли даже и предполагать, что разработан- 
ный ими язык будет представлять интерес для людей, которые изучают основы алго- 
ритмов и структур данных. Сам по себе этот язык не представляет особой сложнос- 
ти, а справочные руководства по нему — основательны и доступны. 
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Парадигма реализации типа интерфейс-клиент подробно, со множеством приме- 
ров описывается в книге Хансона (НапБоп). Эта книга — замечательный справочник 
для тех программистов, которые намерены создавать устойчивый и переносимый код 
для больших систем. 

Книги Кнута (КпиіЬ), в особенности 1-й и 3-й тома, остаются авторитетным ис- 
точником информации по свойствам элементарных структур данных. Книги Баеца- 
Йатса (Ваега-УаІеБ) и Гоннета (Соппеі) содержат более современную информацию, 
подкрепленную внушительным библиографическим перечнем. Седжвик (8есі§ешіск) и 
Флажолет (Р1а]о1еі) подробно освещают математические свойства деревьев. 

АсіоЪе 8у8Іегп8 Іпсогрогаіесі, РозіЗсгірі Ьап%иа%е Яе/егепсеМапиаІ, есопб есііііоп, 
АсІсІІ8оп-\Уе8Іеу, Яеасііп§, МА, 1990. 

К. Ваега-Уаіез апсі С. Н. Соппеі, НапсІЬоок о/ АІ^огііктз апсі Баіа Зігисіигез , зесопсі 
есііііоп, АскіІ8оп-\Уе8Іеу, Яеасііп§,МА, 1984. 

Э. К. НапБОП, С Іпіег^асез апсі Ітріетепіаііопз: Тескпщиез /ог Сгеаііп% ЯеизаЫе Зо/і\ѵаге , 
АскіІ 80 п-\Уе 8 Іеу, 1997. 

В. \У. Кеті^Ьап апсі Э. М. ЯіІсЬіе, Тке С Рго%гаттіп8 Ьап%иа%е, 8есопб есііііоп, 
Ргепіісе-Наіі, Еп§1е\ѵоосі СіііТб, ^.і, 1988. 

Е. КпиіЬ , ТНе Ап о/ СотрШег Рго%гаттіп&. Ѵоіите 1: Еипсіатепіаі Аі^огШігпб, іЬігсі 
есііііоп, Асі(іІ 80 п-\Уе 8 Іеу, ЯеасНп§, МА, 1997; Ѵоіите 2\ Зетіпитегісаі АІ^огііктз, 
іЫгсі есііііоп, Асі(іІ 80 п-\Уе 8 Іеу, ЯеасІіп§, МА, 1998; Ѵоіите 3: ЗоПіп$ апсі ЗеагсЫщ, 
8есопб есіціоп, АсісіІ8оп-\Ѵе8Іеу, Яеасііп§,МА, 1998. 

8. Меуег8, Е//есііѵе С++, 8есопб есііііоп, АсісіІ 80 П-\Уе 8 Іеу, Яеабіп§, МА, 1996. 

8. Меуег8, Моге Е//есііѵе С++, АсісіІ 80 п-\Ѵе 8 Іеу , Яеасііп§, МА, 1996. 

Я. 8еб§е^іск апсі Р. Ріаріеі, Ап Іпігойисііоп іо іке Апаіузіз о/ АІ^огііктз, АсісПбоп- 
\Уе8Іеу, Яеасііп§, МА, 1996. 

Т. А. 8іапбІ8Ь, О а іа Зігисіигез, АІ^огііктз, апсі Зо/імаге Ргіпсіріез іп С, АсісіІ 80 п-\Уе 8 Іеу, 

1995. 

В. 8ігои8ігир, Тке С++ Рго%гаттіп& Ьап^иа^е, іЬігсІ есііііоп, АбсіІ8оп-\Уе8Іеу, Яеасііп§ 
МА, 1997. 
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В качестве нашего первого экскурса в область алгорит- 
мов сортировки изучим несколько элементарных ме- 
тодов, которые целесообразно использовать для сортиров- 
ки файлов небольших размеров либо для сортировки фай- 
лов со специальной структурой. Имеются несколько 
причин для подробного изучения этих простых алгорит- 
мов сортировки. Прежде всего, они представляют собой 
контекст, в рамках которого можно изучить терминоло- 
гию и базовые механизмы алгоритмов сортировки, что по- 
зволит создать соответствующие предпосылки для изуче- 
ния более сложных алгоритмов. Во-вторых, эти простые 
методы во многих приложениях сортировки показали 
себя, по сути дела, более эффективными, чем мощные 
универсальные методы. В-третьих, некоторые из простых 
методов допускают расширение в более эффективные 
универсальные методы или же могут оказаться полезны- 
ми в плане повышения эффективности совершенных ме- 
тодов сортировки. 

Цель настоящей главы заключается не только в озна- 
комлении читателя с элементарными методами сортиров- 
ки, но и в создании таких структур, в рамках которых 
можно было бы изучать сортировку и в последующих гла- 
вах. Мы рассмотрим различные ситуации, которые благо- 
приятствуют применению того или иного алгоритма сор- 
тировки, исследуем различные виды входных файлов, а 
также рассмотрим различные способы сравнения методов 
сортировки и изучения их свойств. 

Начнем с рассмотрения простой программы тестирова- 
ния методов сортировки, которая обеспечивает контекст, 
позволяющий выработать соглашения, необходимые для 
того, чтобы впоследствии им следовать. Мы также про- 
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анализируем базовые свойства различных методов сортировки; их очень важно знать 
при оценке возможности использования того или иного алгоритма в условиях кон- 
кретных приложений. Затем мы подробно рассмотрим реализацию трех элементар- 
ных методов: сортировки выбором, сортировки вставками и пузырьковой сортиров- 
ки. После этого будут подробно анализироваться рабочие характеристики упомянутых 
алгоритмов. Далее мы рассмотрим сортировку методом Шелла, которой не очень-то 
подходит характеристика "элементарная", однако она достаточно просто реализует- 
ся и имеет много общего с сортировкой методом вставки. Углубляясь в математичес- 
кие свойства сортировки методом Шелла, мы займемся изучением проблемы разра- 
ботки интерфейсов типов данных, наряду с программами, которые рассматривались 
в главах 3 и 4 и которые предназначены для распространения изучаемых алгоритмов 
на сортировку различных видов файлов данных, какие встречаются на практике. За- 
тем мы рассмотрим методы сортировки по косвенным ссылкам на данные, а также 
методы сортировки связных списков. Данная глава завершается обсуждением специ- 
ализированного метода, который целесообразно использовать, когда известно, что 
ключи принимают значения в ограниченном диапазоне. 

Многие из возможных приложений сортировки часто отдают предпочтение про- 
стейшим алгоритмам. Во-первых, очень часто программа сортировки используется 
всего лишь один или небольшое число раз. После того как удалось "решить" проблему 
сортировки для некоторого набора данных, в дальнейшем потребность в программе 
сортировки в приложениях, которые манипулируют этими данными, отпадает. Если 
элементарная сортировка работает не медленней других частей приложения, осуще- 
ствляющего обработку данных — например, считывание данных или их вывод на пе- 
чать — то отпадает необходимость в поиске более быстрых методов сортировки. Если 
число сортируемых элементов не очень большое (скажем, не превышает нескольких 
сотен элементов), можно просто воспользоваться простым методом и не ломать го- 
лову над тем, как работает интерфейс для системной сортировки, или как написать 
и отладить программу, реализующую какой-нибудь сложный метод сортировки. Во- 
вторых, элементарные методы всегда годятся для файлов небольших размеров (со- 
стоящих из нескольких десятков элементов) — сложные алгоритмы в общем случае 
обусловливают непроизводительные затраты ресурсов, а это приводит к тому, что на 
файлах небольших размеров они работают медленнее элементарных методов сорти- 
ровки. Эта проблема не попадет в фокус нашего внимания до тех пор, пока не воз- 
никнет необходимость сортировки большого числа файлов небольших размеров, од- 
нако следует иметь в виду, что приложения с подобного рода требованиями 
встречаются достаточно часто. Другими типами файлов, сортировка которых суще- 
ственно упрощена, являются файлы, с почти (или уже) завершенной сортировкой или 
файлы, которые содержат большое число дублированных ключей. Далее можно будет 
убедиться в том, что некоторые методы из числа простейших особенно эффективны 
при сортировке хорошо структурированных файлов. 

Как правило, для сортировки случайно упорядоченного файла из N элементов с 
применением элементарных методов, которые обсуждаются в данной главе, требуется 
время, пропорциональное N 1 . Если N не велико, то такое время выполнения сорти- 
ровки может оказаться вполне приемлемым. Как только что было отмечено, эти ме- 
тоды, примененные для сортировки файлов небольших размеров, а также в ряде дру- 
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гих специальных случаев, по эффективности могут превзойти более сложные мето- 
ды сортировки. Однако методы, которые исследуются в настоящей главе, не годятся 
для сортировки файлов больших размеров с произвольной организацией, поскольку 
время их сортировки будет недопустимо большим, даже если она выполняется на 
сверхбыстродействующих компьютерах. В этом плане заслуживающим внимания ис- 
ключением может послужить сортировка методом Шелла (см. раздел 6.6), для кото- 
рого при большом N требуется гораздо меньше, чем ./V 2 шагов, при этом можно ут- 
верждать, что данный метод является одним из наилучших для сортировки файлов 
средних размеров и для ряда других специальных случаев. 

6.1. Правила игры 

Прежде чем переходить к рассмотрению конкретных алгоритмов, полезно обсу- 
дить общую терминологию и базовые принципы построения алгоритмов сортировки. 
Мы будем рассматривать методы сортировки файлов элементов , обладающих ключами. 
Эти понятия являются естественными абстракциями для современных сред програм- 
мирования. Ключи, которые — суть лишь часть (зачастую очень небольшая часть) эле- 
ментов, используются для управления сортировкой. Цель метода сортировки заклю- 
чается в переупорядочении элементов таким образом, чтобы их ключи следовали в 
соответствии с четко определенными правилами (обычно это цифровой или алфавит- 
ный порядок). Специфические характеристики ключей и элементов в разных прило- 
жениях могут существенно отличаться друг от друга, однако абстрактное понятие 
размещения ключей и связанной с ними информации в определенном порядке и 
представляет собой суть проблемы сортировки. 

Если сортируемый файл полностью помещается в оперативной памяти, то исполь- 
зуемый в этом случае метод сортировки называется внутренним. Сортировка файлов, 
хранящихся на магнитной ленте или диске, называется внешней. Основное различие 
между этими двумя методами заключается в том, что в условиях внутренней сорти- 
ровки доступ к любому элементу не представляет трудностей, в то время как в усло- 
виях внешней сортировки возможен только последовательный метод доступа или, по 
меньшей мере, доступ к блокам больших размеров. Некоторые из внешних методов 
сортировки рассматриваются в главе 11, однако большая часть исследуемых алгорит- 
мов принадлежит к категории внутренней сортировки. 

Мы будем рассматривать как массивы, так и связные списки. Как проблема сор- 
тировки массивов, так и проблема сортировки связных списков представляют несом- 
ненный интерес: в процессе разработки собственных алгоритмов мы столкнемся с 
некоторыми базовыми задачами, для которых лучше всего подойдет последователь- 
ное распределение элементов, для других же задач больше подходит структура связ- 
ных списков. Некоторые из классических методов обладают столь высокой степенью 
абстракции, что могут одинаково эффективно применяться как к массивам, так и к 
связным спискам; в то же время другие максимально эффективно проявляют себя на 
каком-то одном виде указанных выше объектов сортировки. Другие виды ограниче- 
ний доступа также иногда представляют определенный интерес. 

Для начала стоит акцентировать внимание на сортировке массивов. Программа 6.1 
может служить иллюстрацией соглашений, которые будут соблюдаться во всех реали- 
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зациях. Она состоит из управляющей программы (в дальнейшем программы-драйве- 
ра), которая заполняет массив, считывая целые значения из стандартного ввода либо 
генерируя случайные целые значения (соответствующий режим работы программы 
задается целым аргументом). Затем эта программа вызывает функцию сортировки, 
которая размещает эти целые значения в определенном порядке, а в завершение 
выполняет печать результатов сортировки. 

Программа 6.1. Пример сортировки массива с помощью управляющей программы 

Данная программа служит иллюстрацией принятых нами соглашений, касающихся 
реализации базовых алгоритмов сортировки массивов. Функция таіп — суть драйвер, 
который инициализирует массив целыми значениями (случайными значениями либо 
значениями, полученными из стандартного ввода), вызывает функцию зогі с целью 
выполнения сортировки заполненного массива, после чего выводит на печать 
упорядоченный результат сортировки. 

Шаблоны позволяют использовать данную программную реализацию для сортировки 
элементов, принадлежащих к различным типам данных, для которых определены 
операции сравнения и присваивания. В рассматриваемом случае функция зогі 
представляет собой частный случай сортировки вставками (см. раздел 6.3, в котором 
приводится подробное описание, пример и улучшенный вариант реализации). Она 
использует шаблонную функцию, которая сравнивает два элемента и при 
необходимости производит обмен их местами, чтобы второй элемент был не меньше 
первого. 

Можно внести соответствующие изменения в программу-драйвер, чтобы она смогла 
выполнять сортировку любых типов данных, для которых определена операция 
орегаіоК, не внося при этом никаких изменений в функцию зоіі (см. раздел 6.7). 


#іпсГис!е <іоз!геат.Ь> 

#іпсГисІе < 5 Ісі 1 іЪ . Ь> 

Іетріаіе <с 1 азз І 1 ет> 
ѵоісі ехсЬ(І1ет &А , Нет &В) 

{ Нет 1 = А; А = В ; В = 1; } 

Іетріаіе <с 1 азз І 1 ѳт> 
ѵоісі сотрѳхсЬ ( I Іет &А, Пет &В) 

{ іі (В < А) ехсЪ(А, В) ; } 

Іетріаіе <с 1 азз Нѳт> 
ѵоісі зог 1 (Иѳт а[], іпі 1 , іпі г) 

{ і:ог (іпі і = 1 + 1 ; і <= г; і++) 

^ог (іпі 3 = і; 3 > 1 ; з — ) 
сотрехсЬ (а [ з - 1 ] , а [ з ] ) ; 

} 

іпі таіп(іп! агдс, сЬаг *агдѵ[]) 

{ іпі і, N = аіоі (агдѵ [1] ) , зѵ = аіоі (агдѵ[2] ) ; 
іпі *а = пеѵ іп 1 [ 1 *] ; 
і^ (зѵг) 

^ог (і = 0 ; і < Ц; і++) 

а [і] = 1000* (1 . 0*гапсі() /КА№)_МАХ) ; 

еізе 

{ N = 0; ѵЪіІе (сіп » а[Ц]) И++; } 

3011(3, О, N-1) ; 

^ог (і = 0 ; і < И; і++) соиі « а[і] « " 
соиі « епсіі ; 
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Как уже должно быть известно из глав 3 и 4, существуют многочисленные меха- 
низмы, обеспечивающие условия для выполнения сортировки и других типов данных. 
Мы подробно обсудим возможности использования таких механизмов в разделе 6.7. 
Функция 80 ГІ из программы 6.1 представляет собой приведенную к шаблону реали- 
зацию, ссылающуюся на сортируемые элементы только посредством своего первого 
аргумента и нескольких простейших операций над данными. Как обычно, подобный 
подход позволяет использовать одни и те же программные коды для сортировки эле- 
ментов разных типов. Например, если в программный код функции шаіп програм- 
мы 6.1, выполняющий генерацию, хранение и печать случайных ключей внести изме- 
нения, обеспечивающие возможность обработки чисел с плавающей точкой вместо 
целых чисел, то вообще отпадет необходимость какой-либо модификации функции 
§огі. С целью достижения упомянутой гибкости (и в то же время явной идентифика- 
ции переменных, в которых хранятся элементы сортировки), реализации должны 
быть снабжены такими параметрами, благодаря которым стала бы возможной рабо- 
та с типом данных Нет. На данном этапе под типом данных Нет подразумевается 
іпі или Яоаі; в разделе 6.7 подробно рассматривается реализация типов данных, ко- 
торые позволят выполнять сортировку элементов произвольной природы с ключами 
в виде чисел с плавающей точкой, строк и других типов, используя механизмы, опи- 
санные в главах 3 и 4. 

Функцию 80 гі можно заменить любой программой сортировки массивов, представ- 
ленной в настоящей главе или в главах 7—10. Каждая из них предполагает необходи- 
мость сортировки элементов типа Нет, каждая из них использует три аргумента: мас- 
сив, левую и правую границы подмассива, подлежащего сортировке. В них также 
применяется операция орегаіог<, осуществляющая сравнение ключей элементов, а 
также функции ехсЬ или сотрехсЬ, выполняющие обмен элементов местами. Чтобы 
иметь возможность различать методы сортировки, будем присваивать различным про- 
граммам сортировки разные имена. Переименование какой-либо из них, замена про- 
граммы-драйвера или использование указателей на функции для переключения с од- 
ного алгоритма на другой в клиентской программе, подобной программе 6.1, без 
внесения изменений в программную реализацию алгоритма сортировки, не сопряже- 
но ни с какими трудностями. 

Принятые соглашения позволяют проводить анализ многих естественных и ком- 
пактных программных реализаций алгоритмов сортировки массивов. В разделах 6.7 
и 6.8 рассматривается драйвер, который служит иллюстрацией того, как следует ис- 
пользовать реализации сортировок в более общих контекстах, а также различные ре- 
ализации типов данных. И хотя мы всегда будем уделять должное внимание требова- 
ниям к организации программных пакетов, основные усилия будут направляться на 
решение алгоритмических проблем, к рассмотрению которых мы сейчас и переходим. 

Пример функции сортировки, представленный программой 6.1, является одним из 
вариантов сортировки вставками (ітегііоп %огі), который более подробно исследуется 
в разделе 6.3. Так как в нем используются только операции сравнения и обмена, то 
его можно считать примером неадаптивной (попадарііѵе) сортировки: последователь- 
ность операций, которые она выполняет, не зависит от порядка следования данных. 
И наоборот, адаптивная (адарііѵе) сортировка выполняет различные последователь- 
ности операций в зависимости от результата сравнения (вызов операции орегаіог<). 
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Неадаптивные методы сортировки интересны тем, что они достаточно просто реали- 
зуются аппаратными средствами (см. главу 11), однако большинство универсальных 
алгоритмов сортировки, которые будут предметом наших обсуждений, суть адаптив- 
ные методы сортировки. 

Как обычно, основной характеристикой алгоритма сортировки, вызывающей наи- 
больший интерес, является время, затрачиваемое на его выполнение. Для выполне- 
ния сортировки N элементов методом выбора, методом вставок и пузырьковым ме- 
тодом, которые будут рассматриваться в разделах 6.2— 6.4, требуется время, 
пропорциональное Л г2 , как показано в разделе 6.5. Более совершенные методы, ко- 
торые исследуются в главах 7—10, могут выполнить сортировку N элементов за вре- 
мя, пропорциональное N 1о§А, однако эти методы не всегда столь же эффективны, 
как рассматриваемые здесь методы применительно к небольшим значениям УѴ, а 
также в некоторых особых случаях. В разделе 6.6 обсуждается более совершенный 
метод (сортировка методом Шелла), который можно выполнить за время, про- 
порциональное N 2/2 или даже за меньшее время, а в разделе 6.10 приводится специ- 
ализированный метод (сортировка по ключевым индексам), которая для некоторых 
типов ключей выполняется за время, пропорциональное N. 

Аналитические результаты, изложенные в предыдущем параграфе, получены на 
основе подсчета базовых операций (сравнение и обмен значениями), которые выпол- 
няет алгоритм. Как уже отмечалось в разделе 2.2, следует также учитывать затраты 
ресурсов на выполнение этих операций. Тем не менее, в общем случае мы считаем, 
что основное внимание целесообразно сосредоточить на изучении наиболее часто 
используемых операций (внутренний цикл алгоритма). Цель заключается в том, чтобы 
разработать эффективные и недорогие реализации эффективных алгоритмов. Имея 
перед собой эту цель, мы не только должны избегать неоправданных расширений 
внутренних циклов алгоритмов, но и искать пути удаления всевозможных команд из 
внутренних циклов, где это только возможно. В общем, наилучший способ уменьше- 
ния стоимости приложения — это переключение на более эффективный алгоритм; 
другой способ предусматривает минимизацию внутренних циклов по числу команд. 
Оба эти способа подробно исследуются на примере алгоритмов сортировки. 

Дополнительный объем оперативной памяти, используемый алгоритмом сортиров- 
ки, является вторым по важности фактором, который также будет рассматриваться. 
По существу, все эти методы можно разбить на три категории: те, которые выпол- 
няют сортировку на месте и не нуждаются в дополнительной памяти, за исключени- 
ем, возможно, небольшого стека или таблицы; те, которые используют представле- 
ние в виде связного списка или каким-то другим способом получает доступ к данным, 
используя для этой цели указатели или индексы массивов, в связи с чем необходима 
дополнительная память для размещения N указателей или индексов, и те, которые 
требуют дополнительной памяти для размещения еще одной копии массива, подвер- 
гаемого сортировке. 

Довольно-таки часто применяются методы сортировки элементов с несколькими 
ключами — иногда возникает необходимость сортировки одного и того же набора 
элементов в разные моменты по разным ключам. В таких случаях очень важно знать, 
обладает ли выбранный метод сортировки следующим свойством: 
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Определение 6.1: Говорят, что метод сортировки устойчив, если он сохраняет отно- 
сительный порядок размещения элементов в файле , который содержит дублированные 
ключи. 


Например, если сформированный по алфавиту список студентов и год окончания 
школы упорядочен по году, устойчивый метод сортировки выдает список, в котором 


студенты, окончившие школу в одном и том же году, опять-таки перечисляются в 


алфавитном порядке, в то время как при использовании неустойчивого метода, ско- 


рее всего, будет получен список, в котором алфавитный 
порядок в рамках года не сохраняется. Очень часто 
люди, не знакомые с понятием устойчивости, когда 
впервые сталкиваются с подобного рода ситуацией, с 
удивлением обнаруживают, до какой степени неустой- 
чивый алгоритм сортировки нарушает начальный поря- 
док. 

Некоторые (но отнюдь не все) простые методы сор- 
тировки, которые рассматриваются в данной главе, суть 
устойчивые методы. С другой стороны, многие из слож- 
ных алгоритмов сортировки (опять-таки, не все), кото- 
рые исследуются в нескольких последующих главах, та- 
ковыми не являются. В тех случаях, когда устойчивость 
должна быть неотъемлемым свойством, мы вводим его, 
добавляя перед сортировкой к каждому ключу неболь- 
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шой индекс, либо расширяем ключ сортировки каким- 
нибудь другим способом. Выполнение такой дополни- 
тельной работы равносильно использованию обоих 
ключей для сортировки, представленной на рис.6.1; ис- 
пользование устойчивого алгоритма сортировки гораз- 
до предпочтительней. Легко согласиться с необходимо- 
стью наличия свойства устойчивости; фактически, ряд 
более сложных алгоритмов, которые будут рассматри- 
ваться в следующих главах, достигают устойчивости без 
существенных дополнительных затрат памяти и време- 
ни. 

Как уже отмечалось ранее, программы сортировки 
осуществляют доступ к элементам в соответствие с од- 
ним из двух следующих способов: либо доступ к ключам 
с последующим выполнением операции сравнения, либо 
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РИСУНОК 6.1. ПРИМЕР 
УСТОЙЧИВОЙ СОРТИРОВКИ 

Сортировка представленных 
здесь записей может 
соответствовать и тому , и 
другому ключу. Предположим, 
что первоначально записи были 
отсортированы по первому 


доступ к элементам в целом с целью их перемещения. 
Если сортируемые элементы имеют большие размеры, 
не имеет смысла перемещать их в памяти, целесообраз- 
нее выполнять непрямую (іпсіігесі) сортировку : переупоря- 
дочиваются не сами элементы, а, скорее, массив указа- 
телей (индексов) так, что первый указатель указывает 
на наименьший элемент, следующий — на наименьший 
из оставшихся и т.д. Ключи можно хранить вместе с са- 


ключу (верхняя часть рисунка). 
Неустойчивая сортировка по 
второму ключу не сохраняет 
этот порядок для записей с 
дублированным ключом 
( в центре), в то время как 
устойчивая сортировка 
сохраняет этот порядок 
(нижняя часть). 
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мими элементами (если ключи большие) либо с указателями (если ключи небольших 
размеров). Можно переупорядочить элементы после сортировки, но часто в этом нет 
необходимости, поскольку теперь уже имеется возможность обращения к ним в по- 
рядке, установленном сортировкой (косвенным путем). Непрямые методы сортиров- 
ки рассматриваются в разделе 6.8. 

Упражнения 

о 6.1. Детская игрушка, в которой используются свойства сортировки, состоит из / 
карт, каждую из них можно нанизать на колышек в /- й позиции, причем / прини- 
мает значения от 1 до 5. Разработать метод, который можно использовать для на- 
низывания карт на колышки, принимая во внимание то обстоятельство, что по 
виду карты нельзя сказать, можно ли ее надеть на тот или иной колышек (для это- 
го потребуется предпринять попытку надеть карту на колышек). 

6.2. Карточный трюк требует, чтобы колода карт была упорядочена по мастям 
(сначала пики, далее черви, трефы и бубны), а внутри каждой масти — по стар- 
шинству. Попросите нескольких своих друзей решить эту задачу (перед каждой по- 
пыткой перетасуйте карты!) и запишите методы, которыми они пользовались. 

6.3. Объясните, как вы будете сортировать колоду карт при условии, что карты не- 
обходимо укладывать в ряд лицевой стороной вниз, причем допускается провер- 
ка значений только двух карт и (при необходимости) обмен местами этих карт. 

о 6.4. Объясните, как вы будете сортировать колоду карт при условии, что карты хра- 
нятся в колоде, а единственная допустимая операция с ними состоит в том, что 
выявляются значения двух верхних карт в колоде, обмен этих карт местами и пе- 
ремещение верхней карты в низ колоды. 

6.5. Приведите пример последовательностей из трех операций сравнения-обмена, 
посредством которых выполняется сортировка совокупности из трех элементов. 

о 6.6. Приведите пример последовательностей из пяти операций сравнения-обмена, 
посредством которых выполняется сортировка совокупности из четырех элемен- 
тов. 

• 6.7. Напишите клиентскую программу, которая проверяет, является ли использу- 
емая подпрограмма сортировки устойчивой. 

6.8. Проверка того, что массив отсортирован в результате применения функции 
80ГІ, не дает никаких гарантий того, что сортировка работает. Почему так полу- 
чается? 

• 6.9. Написать клиентскую программу, представляющую собой драйвер, измеряю- 
щий эффективность сортировки, который многократно выполняет функцию 80гі 
на файлах различных размеров, измеряет время каждого выполнения этой фун- 
кции и выводит на печать (в виде текста или графического изображения) значе- 
ния среднего времени выполнения сортировки. 

• 6.10. Написать учебную клиентскую программу-драйвер, которая выполняет фун- 
кцию 80 ГІ в сложных или патологических случаях, которые могут иметь место в 
практических приложениях. Примерами могут служить уже упорядоченные фай- 
лы, файлы, представленные в обратном порядке, файлы, все записи которых име- 
ют одни и те же ключи, файлы, содержащие только два отличных друг от друга 
значения, файлы размерами 0 или 1. 
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6.2. Сортировка выбором 

Один из самых простых алгоритмов сортировки 
работает следующим образом. Сначала отыскивается 
наименьший элемент массива, затем он меняется ме- 
стами с элементом, стоящим первым в сортируемом 
массиве. Далее, находится второй наименьший эле- 
мент и меняется местами с элементом, стоящим вто- 
рым в исходном массиве. Этот процесс продолжается 
до тех пор, пока весь массив не будет отсортирован. 
Изложенный метод называется сортировкой выбором , 
поскольку он работает по принципу выбора наимень- 
шего элемента из числа неотсортированных. На рис 
6.2. представлен пример работы этого метода. 

Программа 6.2 — суть реализация сортировки вы- 
бором, в которой выдержаны все принятые нами со- 
глашения. Внутренний цикл представляет собой срав- 
нение текущего элемента с наименьшим из 
выявленных к тому времени элементом (плюс про- 
граммный код, необходимый для увеличения на еди- 
ницу индекса текущего элемента и проверки того, 
что он не выходит за границы массива); трудно себе 
представить более простой метод сортировки. Дей- 
ствия по перемещению элементов выходят за преде- 
лы внутреннего цикла: каждая операция обмена эле- 
ментов местами устанавливает один из них в 
окончательную позицию, так что всего потребуется 
выполнить N — 1 таких операций (для последнего эле- 
мента эту операцию выполнять не нужно). Таким об- 
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РИСУНОК 6.2. ПРИМЕР 
СОРТИРОВКИ ВЫБОРОМ 

В этом примере первый проход не 
дал результата , поскольку слева 
от Кв массиве нет элемента, 
меньшего А. На втором проходе 
другой элемент А оказался 
наименьшим среди оставшихся, 
поэтому он меняется местами с 
элементом 8, занимающим 
вторую позицию. Далее , на 
третьем проходе, элемент Е, 
находящийся в середине массива, 
меняется местами с О, 
занимающим третью позицию; 
затем, на четвертом проходе, 
еще один элемент Е меняется 
местами с К, занимающим 
четвертую позицию и т.д. 


разом, основную составляющую времени выполнения сортировки представляет коли- 
чество осуществленных операций сравнения. В разделе 6.5 будет показано, что это 
время пропорционально УѴ 2 , а также представлены способы вычисления общего вре- 


мени выполнения программы сортировки и корректного сравнения сортировки вы- 
бором и других элементарных методов. 


Программа 6.2. Сортировка выбором 

Для каждого і от I до г-1 поменять местами элемент а[і] с минимальным элементом 
в последовательности а[і],...,а[г],. По мере продвижения индекса і слева направо, 
элементы слева от него занимают свои окончательные позиции в массиве (дальнейшим 
перемещениям они не подлежат), таким образом, массив будет полностью 
отсортирован, когда і достигнет его правого конца. 

•Ъетріаѣе <с1азз І1ет> 

ѵоісі зеІесЬіоп (Іѣет а[], іпЪ 1, іігЪ г) 

{ ^ог (іпЪ і = 1; і < г; і++) 

{ іпѣ тіп = і; 

іот (іпѣ 3 = і+1; ^ <= г; 3++) 
і^ (а[з] < а [тіп]) тіп = 3; 






Часть 3. Сортировка 


} 


ехсЬ(а[±], а[тіп]); 


Недостаток сортировки выбором заключается в том, что время ее выполнения 
лишь в малой степени зависит от того, насколь упорядочен исходный файл. Процесс 
нахождения минимального элемента за один проход файла дает очень мало сведений 
о том, где может находиться минимальный элемент на следующем проходе этого 
файла. Например, пользователь, применяющий этот метод, будет немало удивлен, 
когда узнает, что на сортировку почти отсортированного файла или файла, записи 
которого имеют одинаковые ключи, требуется столько же времени, сколько и на сор- 
тировку файла, упорядоченного случайным образом! Как мы убедимся позже, другие 
методы с большим успехом используют преимущества присутствия порядка в исход- 
ном файле. 

Несмотря на всю ее простоту и очевидный примитивизм подхода, сортировка вы- 
бором превосходит более совершенные методы в одном из важных приложений: это- 
му методу сортировки файлов отдается предпочтение в тех случаях, когда записи фай- 
ла огромны, а ключи занимают незначительное пространство. В подобного рода 
приложениях затраты ресурсов на перемещения записей намного превосходят сто- 
имость операций сравнения, а что касается перемещения данных, то никакой алго- 
ритм не способен выполнить сортировку файла с меньшим числом перемещений дан- 
ных, нежели метод выбора (см. лемму 6.5, раздел 6.5). 

Упражнения 

> 6.11. В стиле рис. 6.2 показать, как сортируется учебный файл ЕА8Ѵ(21ІЕ8 
Т I О N методом выбора. 

6.12. Какой максимальной величины достигает число обменов для любого конк- 
ретного элемента в процессе сортировки выбором? Что собой представляет сред- 
нее количество обменов, приходящееся на один элемент? 

6.13. Приведите пример файла из N элементов, в котором число случаев невыпол- 
нения условия аШ < а[шіп] достигает максимального значения (вследствие чего 
шіп принимает новое значение) в процессе выполнения сортировки выбором. 

о 6.14. Является ли сортировка выбором устойчивой? 

6.3. Сортировка вставками 

Метод сортировки, который часто применяют игроки в бридж по отношению к 
картам на руках, заключается в том, что отдельно анализируется каждый конкретный 
элемент, который затем помещается в надлежащее место среди других, уже отсорти- 
рованных элементов. В условиях компьютерной реализации следует позаботиться о 
том, чтобы освободить место для вставляемого элемента путем смещения больших 
элементов на одну позицию вправо, после чего на освободившееся место помещается 
вставляемый элемент. Функция $ог! из программы 6.1 является программной реали- 
зацией этого метода, получившего название сортировки вставками ( іпзегііоп зогГ). 
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Как и в случае сортировки выбором, элементы, 
находящиеся слева от текущего индекса, отсортиро- 
ваны в соответствующем порядке, тем не менее, 
они еще не занимают свои окончательные позиции, 
ибо могут быть передвинуты с целью освобождения 
места под меньшие элементы, которые обнаружи- 
ваются позже. Массив будет полностью отсортиро- 
ван, когда индекс достигнет правой границы масси- 
ва. На рис. 6.3 показано, как работает этот метод на 
примере учебного файла. 

Реализация сортировки вставками, представлен- 
ная в программе 6.1, проста, но не может считать- 
ся эффективной. Сейчас мы рассмотрим три спосо- 
ба его совершенствования, иллюстрирующих мотив, 
который прослеживается во многих разрабатывае- 
мых реализациях, а именно: требуется получить ком- 
пактный, понятный и эффективный программный 
код, однако эти целевые установки время от време- 
ни вступают между собой в противоречие, поэтому 
часто приходится искать компромисс. Это достигает- 
ся путем разработки естественной программной ре- 
ализации с последующим ее улучшением за счет оп- 
ределенной последовательности преобразований с 
проверкой эффективности (и правильности) каждо- 
го такого преобразования. 

Прежде всего, можно отказаться от выполнения 
операций сотрехсЬ, если встречается ключ, который 
не больше ключа вставляемого элемента, поскольку подмассив, находящийся слева, 
уже отсортирован. А именно, если справедливо условие аЦ-1] < аЦ], то выполняя 
команду Ьгеак, можно выйти из внутреннего цикла (ог в функции зогі: программы 6.1. 
В связи с таким изменением реализация превращается в адаптивную сортировку, бла- 
годаря чему быстродействие программы, примененной для сортировки ключей, упо- 
рядоченных случайным образом, повышается примерно в два раза (см. лемму 6.2). 

Внеся усовершенствования, описанные в предыдущем (параграфе, получаем два 
условия прекращения выполнения внутреннего цикла — можно изменить программ- 
ный код и представить в виде цикла нѣііе, дабы отобразить этот факт наглядно. Ме- 
нее очевидное улучшение реализации следует из того факта, что проверка условия 
у > 1 обычно оказывается излишней: и в самом деле, она достигает цели только в слу- 
чае, когда вставляемый элемент является наименьшим из просмотренных к этому 
моменту, благодаря чему он достигает начала массива. Широко используемая альтер- 
натива этому заключается в том, чтобы сохранять сортируемые ключи в элементах 
массива от а[1] до а[ІЧ], а сигнальный ключ {вепііпеі кеу) поместить в а[0], устанавли- 
вая его значение, по меньшей мере, не превышающим наименьшего ключа в сорти- 
руемом массиве. Теперь проверка того факта, что обнаружен ключ меньше сигналь- 
ного, одновременно становится проверкой обоих представляющих интерес условий, 


А 5 О ВТ I N С Е X А М Р Ь Е 

А0ОВ Т I N С Е X А М Р Ь Е 

А@3 В Т 1 N СЕ X АМ Р I Е 

А О ® 3 Т I N С Е X А М Р Ь Е 

А О Я 3 ® I N С Е X АМ Р 1 Е 
А®0 Я 3 Т N СЕ X АМР I Е 

А I ® О Я 5 Т С Е X АМР Л Е 

А® I N О Я 5 Т Е X А М В І Е 

А(е)С I N О Я 3 Т ХАМ Р І Е 

А Е С I N О Я 3 Т (Х) А М Р Ь Е 

А (А) Е С I N О Я 5 Т X М Р І_ Е 

А А ЕС I ® N О Я 3 Т X Р X Е 

А А Е С I М N О® Я 5 Т X Х Е 

А А ЕС I ® МИОРЯЗТХЕ 
А А Е ® С I ЬМИОРЯвТХ 
ААЕЕС I ЬМЫОРЯЗТХ 

РИСУНОК 6.3. ПРИМЕР 
ВЫПОЛНЕНИЯ СОРТИРОВКИ 
ВСТАВКАМИ 

Во время первого прохода 
сортировки вставками элемент 8, 
занимающий вторую позицию, 
больше А, так что трогать его не 
надо. На втором проходе, когда в 
третьей позиции встречается 
элемент О, он меняется местами с 
5, так что последовательность 
становится АО 5 
отсортированной и т.д. 
Незаштрихованные элементы, 
которые не взяты в кружок, — 
это те, которые были передвинуты 
на одну позицию вправо. 
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благодаря чему внутренний цикл становится меньше, а быстродействие программы 
повышается. 

Сигнальные ключи иногда не слишком удобны в применении: по-видимому, не 
очень-то просто определить значение минимально возможного ключа либо вызыва- 
ющая программа не располагает местом под дополнительный ключ. В программе 6.3 
предлагается один из способов обойти обе упомянутых проблемы в условиях сорти- 
ровки вставками: сначала выполняется отдельный проход вдоль массива, в результате 
которого элемент с минимальным ключом помещается в первую позицию. Затем сор- 
тируется остальной массив, при этом первый элемент, он же наименьший, служит в 
качестве сигнального ключа. В общем случае следует избегать употребления в про- 
граммах сигнальных ключей, поскольку зачастую легче воспринимаются программ- 
ные коды с явными проверками, однако ситуации, когда сигнальные ключи могут 
оказаться полезными в плане упрощения программы и повышения ее эффективно- 
сти, обязательно будут фиксироваться. 

Программа 6.3. Сортировка вставками 

Этот программа представляет собой усовершенствованный вариант функции зоіі из 
программы 6.1, поскольку (/) он помещает наименьший элемент массива в первую 
позицию; в этом качестве наименьший элемент может быть использован как 
сигнальный ключ; (//') во внутреннем цикле он выполняет лишь одну операцию 
присваивания; операция обмена исключается; и (/77) он прекращает выполнение 
внутреннего цикла, когда вставляемый элемент уже находится в требуемой позиции. 

Для каждого і он сортирует элементы а[І],...,а[і], перемещая на одну позицию вправо 
элементы а[І],...,а[і-1] из отсортированного списка, которые по значению больше а[і], 
после чего а [г] попадает в соответствующее место. 

ѣетріаѣе <с1азз І-Ьет> 

ѵоісі іпзег-Ьіоп (Іѣет а[], іпЪ 1, іп’Ь г) 

{ іпі: і ; 

^ог (і = г; і > 1; і— ) сотрехсЬ (а [і-1] , а[і]); 

Еог (і = 1+2; і <= г; і++) 

{ іпѣ з = і; І-Ьет ѵ = а[і]; 
ѵгііііе (ѵ < а[з~1]) 

{ а[э] = а[}-1] ; 3--; } 

а [3] = ѵ; 

} 

} 


Третье улучшение, которое сейчас будет рассматриваться, также касается удаления 
лишних команд из внутреннего цикла. Оно следует из того факта, что последователь- 
ные обмены значениями с одним и тем же элементом не эффективны. Если произ- 
водятся два или большее число обменов значениями, то мы имеем 

ѣ = а [ з ] ; а [3 ] = а[з-1] ; а[з~1] = Ь; 

за которым следует 

ѣ = а[з-1]; а [3-І] = а[з~2] ; а[з-2] = * 

и т.д. Значение і в этих двух последовательностях не изменяется, но при этом про- 
исходит бесполезная трата времени на его запоминание и последующее чтение с це- 
лью следующего обмена значениями. Программа 6.3 передвигает большие элементы 
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на одну позицию вправо вместо того, чтобы воспользоваться операцией обмена, тем 
самым избегая напрасной траты времени. 

Программа 6.3 является реализацией сортировки методом вставки, обладающей 
болыйей эффективностью, нежели программная реализация этого же метода сорти- 
ровки, включенная в программу 6.1 (в разделе 6.5 мы убедимся в том, что ее быст- 
родействие примерно в два раза выше). В рамках данной книги нас интересуют не 
только элегантные и одновременно эффективные алгоритмы, но и элегантные и 
одновременно эффективные реализации этих алгоритмов. В подобных случаях поло- 
женные в их основу алгоритмы несколько отличаются друг от друга — было бы пра- 
вильно назвать функцию 80 ГІ из программы 6.1 неадаптивной сортировкой вставками 
( попадарііѵе іпзегііоп зогі). Правильное понимание свойств алгоритма — лучшее руко- 
водство при разработке его программной реализации, которая может эффективно 
использоваться в различных приложениях. 

В отличие от сортировки выбором, время выполнения сортировки вставками за- 
висит главным образом от исходного порядка ключей при вводе. Например, если 
файл большой, а ключи записей уже упорядочены (или почти упорядочены), то сор- 
тировка вставками выполняется быстро, а сортировка выбором протекает медленно. 
Более полное сравнение различных алгоритмов сортировки приводится в разделе 6.5. 

Упражнения 

> 6.15. В стиле рис. 6.3 показать, как сортируется учебный файл ЕА8Ѵ01ІЕ8 
Т I О N методом вставок. 

6.16. Разработать программную реализацию сортировки вставками, в которой во 
внутреннем цикле используется оператор \ѵ!іі1е, завершающийся по одному из двух 
условий, описание которых приводится выше. 

6.17. Для каждого из условий цикла иѣііе в упражнении 6.16 дать описание файла 
из N элементов, для которого в момент выхода из цикла это условие всегда лож- 
но. 

о 6.18. Является ли сортировка вставками устойчивой? 

6.19. Привести пример неадаптивной реализации сортировки выбором, в основе 
которой лежит выявление минимального элемента, с программным кодом, подоб- 
ным первому оператору цикла Гог в программе 6.3. 

6.4. Пузырьковая сортировка 

Метод сортировки, который многие обычно осваивают раньше других из-за его 
исключительной простоты, называется пузырьковой сортировкой ( ЬиЬЫе зогі), в рамках 
которой выполняются следующие действия: проход по файлу с обменом местами со- 
седних элементов, нарушающих заданный порядок, до тех пор, пока файл не будет 
окончательно отсортирован. Основное достоинство пузырьковой сортировки заклю- 
чается в том, что его легко реализовать в виде программы, однако вопрос о том, ка- 
кой из методов сортировки реализуется легче других — пузырьковый, метод вставок 
или метод выбора — остается открытым. В общем случае пузырьковый метод обла- 
дает несколько меньшим быстродействием, однако его все же стоит рассмотреть для 
полноты картины. 
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Предположим, что мы всегда передвигаемся по 
файлу справа налево. Если удается обнаружить 
минимальный элемент на первом проходе, он ме- 
няется местами с каждым элементом, стоящим от 
него слева, и, в конце концов, этот элемент поме- 
щается в позицию на левой границе массива. За- 
тем на втором проходе в соответствующую пози- 
цию устанавливается второй по величине элемент 
и т.д. Таким образом, вполне достаточно выпол- 
нить N проходов, т.е., пузырьковую сортировку 
можно рассматривать как один из видов сортиров- 
ки выбором, хотя при этом для помещения каждо- 
го элемента в соответствующую позицию прихо- 
дится выполнять больший объем действий. 
Программа 6.4 представляет собой реализацию ал- 
горитма пузырьковой сортировки, а на рис. 6.4 
показан пример работы этого алгоритма. 

Программа 6.4. Пузырьковая сортировка 

Для каждого і от I до г-1 внутренний цикл (і) 
помещает минимальный элемент среди элементов 
последовательности а[і],...,а[г] в а[і], переходя от 
элемента к элементу справа налево и выполняя при 
этом операции сравнения значений соседних 
элементов и обмена местами следующих друг за 
другом элементов. Наименьший элемент 
безпрепятственно перемещается при всех таких 
операциях сравнения влево и "всплывает как и 
пузырек" в начале файла. Как и в случае сортировки 
методом выбора, в условиях которой индекс і 
перемещается по файлу слева направо, элементы 
слева от него находятся в своих окончательных 
позициях. 

ѣетрІа'Ье <с 1 азв І 1 ет> 

ѵоісі ЬиЬЫе(Іѣет а [ ] , іпѣ 1, іпЪ г) 

{ ^ог (іпѣ і = 1 ; і < г; і++) 

(іпі. з = г; з > і; 3 --) 
сотрехсЬ ( а [ з - 1 ] , а[з]); 
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РИСУНОК 6.4. ПРИМЕР ВЫПОЛНЕНИЯ 
ПУЗЫРЬКОВОЙ СОРТИРОВКИ 

В процессе пузырьковой сортировки 
ключи с малыми значениями 
устремляются влево . Поскольку 
сортировка производится в 
направлении справа налево, каждый 
ключ меняется местами с ключом 
слева до тех пор, пока не будет 
обнаружен ключ с меньшим 
значением. На первом проходе Е 
меняется местами с Ь, Р и М, пока 
не остановится справа от А; далее 
уже А продвигается к началу файла . 
пока не остановится перед другим А, 
который уже занимает 
окончательную позицию, і-й по 
величине ключ устанавливается в свое 
окончательное положение после і-ого 
прохода, как и в случае сортировки 
выбором , но при этом и другие ключи 
также приближаются к своим 
окончательным позициям. 


Быстродействие программы 6.4 можно повысить за счет экономной реализации 
внутреннего цикла, выполняя те же приемы, которые применялись в разделе 6.3 при 
разработке программы сортировки вставками (см. также упражнение 6.25). В самом 
деле, если сравнивать программные коды, то программа 6.4 оказывается практически 
идентичной неадаптивной сортировке вставками, реализованной в программе 6.1. 
Различия между ними состоят в том, что в условиях сортировки вставками внутрен- 
ний цикл Гог продвигается вдоль левой (отсортированной) части массива, а в условиях 
пузырьковой сортировки — вдоль правой (не обязательно отсортированной) части 
массива. 
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Программа 6.4 использует только инструкции сотрехсЬ и по этой причине не яв- 
ляется адаптивной реализацией, однако, если файл практически отсортирован, мож- 
но заставить ее работать с большей эффективностью, проверяя, не оказался ли оче- 
редной проход таким, что на нем не было выполнено ни одной операции 
перестановки элементов местами (что равносильно полному упорядочению файла, в 
связи с чем можно покинуть внешний цикл). Внедрение в программу подобного усо- 
вершенствования позволяет повысить быстродействие пузырьковой сортировки на 
некоторых типах файлов, однако в общем случае она не достигнет той эффективно- 
сти, которая характерна для программы сортировки вставками, в которую внесены 
изменения, обеспечивающие своевременный выход из внутреннего цикла, о чем под- 
робно рассказывается в разделе 6.5. 

Упражнения 

> 6.20. В стиле рис. 6.4 показать, как сортируется учебный файл ЕА8Ѵ01ІЕ8 
Т I О N методом пузырьковой сортировки. 

6.21. Дать пример файла, для которого пузырьковая сортировка выполняет мак- 
симально возможное количество перестановок элементов местами. 

о 6.22. Является ли пузырьковая сортировка устойчивой? 

6.23. Объясните, почему пузырьковая сортировка оказывается более предпочти- 
тельной, нежели неадаптивная версия сортировки выбором, описанная в упраж- 
нении 6.19. 

• 6.24. Проделайте эксперимент с целью определения, сколько проходов файла с 
произвольной организацией из N элементов экономится в результате добавления 
в пузырьковую сортировку возможностей прекращения сортировки по результа- 
там проверки, отсортирован файл или нет. 

6.25. Разработать эффективную реализацию пузырьковой сортировки с минималь- 
но возможным числом команд во внутреннем цикле. Убедиться в том, что проде- 
ланные "усовершенствования" не снижают быстродействия программы! 

6.5. Характеристики производительности 

элементарных методов сортировки 

Алгоритмы сортировки выбором, вставками и пузырьковая сортировка по време- 
ни выполнения находятся в квадратичной зависимости от числа элементов как в наи- 
более трудных, так и в обычных случаях, но в то же время они не нуждаются в до- 
полнительной памяти. Таким образом, время их выполнения отличается только 
постоянным коэффициентом пропорциональности этой зависимости, хотя принципы 
их работы существенно различаются, о чем свидетельствуют рис. 6.5, 6.6 и 6.7. 

В общем случае время выполнения алгоритма сортировки пропорционально ко- 
личеству операций сравнения, выполняемых этим алгоритмом, количеству перемеще- 
ний или перемен местами элементов, а, возможно, и обоим сразу. В случае ввода 
данных, упорядоченных случайным образом, сравнение указанных методов сорти- 
ровки предполагает изучение различий между соответствующими постоянными коэф- 
фициентами пропорциональности в зависимости от числа выполняемых операций 
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сравнении и перемены сортируемых элементов места- 
ми, а также различий соответствующих постоянных ко- 
эффициентов пропорциональности в зависимости от 
числа выполняемых операций во внутренних циклах. В 
случае ввода данных со специальными характеристика- 
ми времена выполнения различных видов сортировок 
могут отличаться в большей степени, нежели по значе- 
ниям указанных выше постоянных коэффициентов 
пропорциональности. В данном разделе подробно рас- 
сматриваются аналитические результаты, свидетельству- 
ющие в пользу этого заключения. 

Лемма 6.1. Сортировка выбором производит примерно 
УѴ 2 / 2 операций сравнения и N операций обмена элемен- 
тов местами. 

Можно легко проверить это свойство на примере 
данных, приведенных на рис. 6.2, представляющих 
собой таблицу размерностью УѴ на УѴ, на которой 
незаштрихованные буквы соответствуют сравнени- 
ям. Примерно половина элементов этой таблицы не 
заштрихована, эти элементы расположены над диа- 
гональю. Каждому из УѴ - 1 элементов (за исключе- 
нием завершающего элемента) на диагонали соот- 
ветствует операции обмена. Точнее, исследование 
программного кода показывает, что на каждое / 
от 1 до УѴ - 1 приходится одна операция обмена и 
N — і сравнений, так что всего производится УѴ — 1 
операций обмена и (УѴ- 1) + (УѴ — 2) +...+ 2 + 1 = 
УѴ(УѴ — 1) / 2 операций сравнения. Эти свойства со- 
храняются независимо от природы входных данных; 
единственный показатель сортировки выбором, за- 
висящий от характера входных данных — ■ это число 
операций присваивания переменной шіп новых зна- 
чений. В наихудшем случае эта величина также ста- 
новится квадратично зависимой, однако в среднем 
она характеризуется значением 0(УѴ1о§УѴ) (см. раз- 
дел ссылок ), так что мы вправе рассчитывать на то, 
что время выполнения сортировки выбором не чув- 
ствительно к природе входных данных. 

Лемма 6.2. Сортировка вставками производит в сред- 
нем приблизительно УѴ 2 /4 операций сравнения и УѴ 2 / 4 
операций полу обмена элементов местами (перемещений) 
и в два раза больше операций в наихудшем случае. 

Сортировка, реализованная программой 6.3, выпол- 
няет одно и то же число сравнений и перемещений. 
Так же как и лемма 6.1, эта величина легко просле- 



РИСУНОК 6.5. ДИНАМИЧЕСКИЕ 
ХАРАКТЕРИСТИКИ 
СОРТИРОВОК ВЫБОРОМ И 
ВСТАВКАМИ 


Эти снимки сортировки 
вставками (слева) и выбором 
(справа) на примере случайной 
последовательности 
иллюстрируют протекание 
процессов сортировки 
указанными выше методами. 

На рисунке процесс сортировки 
показан в виде графика 
зависимости а[і] от і для 
каждого і. Перед началом 
сортировки на графике 
представлена равномерно 
распределенная случайная 
величина; по окончании 
сортировки график представлен 
диагональю, проходящий из 
левой нижнего угла в правый 
верхний угол. Сортировка 
вставками никогда не забегает 
вперед по отношению к 
текущей позиции в массиве, в 
то время как сортировка 
выбором никогда не 
возвращается назад. 
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живается на диаграмме размером іѴна УѴ, представленной на рис. 6.3, которая под- 
робно иллюстрирует работу алгоритма сортировки вставками. Здесь ведется под- 
счет элементов, лежащих под главной диагональю, причем в наихудшем случае 
учитываются все такие элементы. Можно ожидать, что для случайно распределен- 
ных входных данных каждый элемент пройдет в среднем половину пути назад, сле- 
довательно, необходимо учитывать только половину элементов, лежащих ниже 
диагонали. 

Лемма 6.3. Пузырьковая сортировка производит в среднем примерно И 2 / 2 операций 
сравнения и И 2 / 2 операций обмена как в среднем, так и в наихудшем случаях. 

На /-м проходе пузырьковой сортировки нужно выполнить N — і операций срав- 
нения-обмена, следовательно, лемма 6.3 доказывается так же, как и случае сор- 
тировки выбором. Если алгоритм усовершенствован таким образом, что его вы- 
полнение прекращается, как только он обнаруживает, что файл уже отсортирован, 
то время его выполнения зависит от природы входных данных. Если файл уже 
отсортирован, то достаточно всего лишь одного прохода, однако /- й проход тре- 
бует выполнения N — і операций сравнения и обмена, если файл отсортирован в 
обратном порядке. Как отмечалось ранее, эффективность сортировки для обыч- 
ного случая ненамного выше, чем для самого трудного случая, однако анализ, 
благодаря которому был установлен этот факт, достаточно сложный (см. раздел 
ссылок) . 

И хотя понятие частично отсортированного файла уже по своей природе содержит 
в себе неопределенность, сортировка вставками и пузырьковая сортировка показы- 
вают хорошие результаты при работе с файлами, не обладающими произвольной 
организацией, которые довольно часто встречаются на практике. Применение в та- 
кого рода приложениях универсальных методов сортировки нецелесообразно. Напри- 
мер, рассмотрим, как работает сортировка вставками на файле, который уже явля- 
ется отсортированным. Сразу же выясняется, что все элементы файла находятся на 
своих местах, а общие затраты времени на сортировку линейно зависят от числа эле- 
ментов. Это же утверждение справедливо и в отношении пузырьковой сортировки, 
но для сортировки выбором эта зависимость остается квадратичной. 

Определение 6.2. Инверсией называется пара ключей, которые нарушают порядок в 
файле. 

Для подсчета количества инверсий в файле для каждого элемента потребуется про- 
суммировать число элементов слева, которые превосходят его по величине (мы бу- 
дем называть это значение числом инверсий, соответствующих выбранному элемен- 
ту). Но это число есть в точности расстояние, которое должны пройти эти элементы 
во время сортировки вставками. В частично отсортированном файле меньше инвер- 
сий, чем в произвольно упорядоченном файле. 

Существуют такие типы частично отсортированных файлов, в которых каждый 
элемент находится достаточно близко к своей окончательной позиции. Например, 
некоторые игроки в карты сортируют имеющиеся у них на руках карты, сначала рас- 
полагая их по масти, тем самым помещая близко к их окончательным позициям, а 
затем упорядочивают карты каждой масти по старшинству. Далее мы рассмотрим не- 
которое число методов сортировки, которые действуют примерно таким же образом 
— на начальной стадии они размещают элементы вблизи окончательных позиций, в 
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РИСУНОК 6.6. ОПЕРАЦИИ СРАВНЕНИЯ И ОБМЕНА ЭЛЕМЕНТОВ В УСЛОВИЯХ ЭЛЕМЕНТАРНЫХ 
МЕТОДОВ СОРТИРОВКИ 

На этой диаграмме показаны различия в том , как сортировки вставками , выбором , а также 
пузырьковая сортировка приводят конкретный файл в порядок. Сортируемый файл представлен в 
виде отрезков , которые сортируются по углу наклона. Черные отрезки соответствуют элементам, 
к которым в процессе сортировки производится доступ на каждом проходе; серые отрезки 
соответствуют элементам, которые не затрагиваются. В условиях сортировки вставками (слева) 
вставляемый элемент проходит примерно половину пути назад через отсортированную часть на 
каждом проходе. Сортировка выбором (в центре) и пузырьковая сортировка (справа) проходят на 
каждом проходе через всю неотсортированную часть массива с целью обнаружения там следующего 
наименьшего элемента; различие между этими методами заключается в том, что пузырьковая 
сортировка меняет местами каждую пару соседних элементов, нарушающих порядок, которые ей 
удается обнаружить, в то время как сортировка выбором помещает минимальный элемент в 
окончательную позицию. Это различие проявляется в том, что по мере выполнения пузырьковой 
сортировки, неотсортированная часть массива становится все более упорядоченной. 
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результате чего образуется частично упорядоченный 
файл, в котором каждый элемент расположен неда- 
леко от той позиции, которую он в конечном итоге 
должен занять. Высокую эффективность при сорти- 
ровке таких файлов демонстрируют сортировка 
вставками и пузырьковая сортировка (но не сорти- 
ровка выбором). 

Лемма 6.4. Методы вставок и пузырьковой сортиров- 
ки выполняют линейно зависимое от N число операций 
сравнения и обмена при сортировке файлов с не более 
чем постоянным числом инверсий , приходящихся на 
каждый элемент. 

Как было только что отмечено, время выполнения 
сортировки вставками прямо пропорционально 
количеству инверсий в сортируемом файле. Что 
касается пузырьковой сортировки (здесь мы ссы- 
лаемся на программу 6.4, скорректированную та- 
ким образом, что ее выполнение прекращается, 
как только завершена сортировка файла), то до- 
казательство подобного утверждения требует до- 
полнительных рассуждений (см. упражнение 6.29). 
Каждый проход пузырьковой сортировки умень- 
шает справа от любого элемента число меньших 
его элементов точно на 1 (если, естественно, это 
число не было равным 0), следовательно, пузырь- 
ковая сортировка использует не более чем постов 
янное число проходов для типов файлов, которые 
сейчас рассматриваются (т.е. частично упорядо- 
ченных), и поэтому количество выполняемых опе- 
раций сравнения и обмена линейно зависит от N. 

Другой тип частично отсортированных файлов 
может быть получен за счет добавления нескольких 
элементов к уже отсортированному файлу либо путем 
соответствующего изменения ключей нескольких эле- 
ментов отсортированного файла. Подобные типы 
файлов наиболее часто встречаются в приложениях 
сортировки. Для таких файлов наиболее эффектив- 
ным является сортировка вставками: сортировка вы- 
бором и пузырьковая сортировка таковыми не явля- 
ются. 



РИСУНОК 6.7. ДИНАМИЧЕСКИЕ 
ХАРАКТЕРИСТИКИ ДВУХ 
ПУЗЫРЬКОВЫХ СОРТИРОВОК 

Стандартная пузырьковая 
сортировка (слева) работает 
подобно сортировке выбором в 
плане того , что каждый проход 
устанавливает один элемент в его 
окончательную позицию , но в то 
же время он асимметрично 
привносит некоторый порядок в 
остальную часть массива. Смена 
направления просмотра массива 
на альтернативный (т.е. 
просмотр в направлении с начала 
до конца массива меняется на 
обратный и наоборот) порождает 
новую разновидность пузырьковой 
сортировки , получившей название 
шейкер-сортировки (справа), 
которая заканчивается быстрее 
(см. упражнение 6.30). 


Таблица 6.1. Эмпирические исследования элементарных алгоритмов сортировки 

На файлах небольших размеров быстродействие сортировки вставками и выбором 
примерно в два раза выше, чем у пузырьковой сортировки, но время выполнения этого 
вида сортировки находится в квадратичной зависимости от размера файла (если 
размер файла возрастает в 2 раза, то время его сортировки возрастает в 4 раза). Ни 
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один из этих методов не следует использовать для сортировки больших случайно 
упорядоченных файлов — например, соответствующие показатели, относящиеся к 
алгоритму сортировки методом Шелла (см. раздел 6.6), возрастают менее чем в 2 раза. 
В тех случаях, когда выполнение операций сравнения сопряжено с большими 
затратами, — например, когда ключи представлены в виде строк — сортировка 
вставками работает гораздо быстрее, чем два других рассматриваемых способа, 
поскольку в условиях сортировки вставками выполняется меньшее количество операций 
сравнения. Здесь мы не обсуждаем ситуации, когда дорогостоящими являются 
операции обмена; в таких случаях наилучшей является сортировка выбором. 

32-разрядные целочисленные ключи ключи в виде строк 


N 

5 

Г 

1 

В 

В* 

5 

1 

В 

1000 

5 

7 

4 

11 

8 

13 

8 

19 

2000 

21 

29 

15 

45 

34 

56 

31 

78 

4000 

85 

119 

62 

182 

138 

228 

126 

321 


Ключи: 

5 Сортировка выбором (программа 6.2) 

Г Сортировка вставками на основе операций обмена (программа 6.1) 
I Сортировка вставками (программа 6.3) 

В Пузырьковая сортировка (программа 6.4) 

В* Шейкер-сортировка (упражнение 6.30) 


Лемма 6.5. Сортировка вставками использует линейно зависимое (от АО число опера- 
ций сравнения и обмена для файлов с не более чем постоянным количеством элементов , 
которые имеют более чем постоянное число соответствующих инверсий. 

Время выполнения сортировки вставками зависит от общего числа инверсий в 
файле и не зависит от того, каким образом эти инверсии распределены в файле. 

Чтобы сделать выводы относительно времени выполнения сортировок на основа- 
нии лемм 6.1— 6.5, необходимо проанализировать затраты на операции сравнения и 
обмена, а этот фактор, в свою очередь, зависит от размеров элементов и ключей (см. 
таблицу 6.1). Например, если элементы представляют собой ключи в виде одного сло- 
ва, то операция обмена (требующая четырех доступов к массиву) должна стоить в два 
раза дороже операции сравнения. В такой ситуации значения времени, затрачивае- 
мого на выполнение сортировок вставками и выбором, можно в первом приближе- 
нии считать соизмеримыми, в то время как пузырьковая сортировка выполняется 
медленнее. Но если сами элементы больше ключей, то лучше всего подходит сорти- 
ровка выбором. 

Лемма 6.6. Время выполнения сортировки выбором линейно зависит от размеров фай- 
лов с большими элементами и малыми ключами. 

Пусть М есть отношение размера элемента к размеру ключа. Тогда можно пред- 
положить, что стоимость операции сравнения составляет 1 единицу времени, а сто- 
имость операции обмена — М единиц времени. Сортировка выбором затрачива- 
ет на операции сравнения примерно N 2 / 2 единиц времени и порядка А Ш единиц 
времени на операции обмена. Если М больше постоянного кратного N. то произ- 
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ведение ЛМ/ превосходит 7Ѵ 2 , так что время выполнения сортировки пропорцио- 
нально произведению N04, которое, в свою очередь, пропорционально количеству 
времени, которое требуется для перемещения всех данных. 

Например, если требуется выполнить сортировку 1000 элементов, каждый из ко- 
торый состоит из ключа в виде одного слова и 1000 слов данных, а мы фактически 
должны переупорядочить эти элементы, то трудно найти что-либо лучшее, чем сор- 
тировка выбором, поскольку основной составляющей времени выполнения для нее 
будет стоимость перемещения в конечном итоге 1 миллиона слов данных. В разделе 
6.8 мы столкнемся с альтернативой переупорядочиванию данных. 

Упражнения 

> 6.26. Какой из трех элементарных методов (сортировка выбором, сортировка 
вставками и пузырьковая сортировка) выполняется быстрее на файле, элементы 
которого снабжены идентичными ключами? 

6.27. Какой из трех перечисленных выше элементарных методов выполняется бы- 
стрее на файле, упорядоченном в обратном порядке? 

6.28. Дать пример файла из 10 элементов (использовать ключи от А до .1), в про- 
цессе сортировки которого пузырьковая сортировка выполняет меньше операций 
сравнения, чем метод вставок, либо же доказать, что такой файл не существует. 

• 6.29. Показать, что каждый проход пузырьковой сортировки уменьшает ровно на 
1 число элементов слева от текущего, превосходящих его по значению (естествен- 
но, если это число не равно 0). 

6.30. Реализовать вариант пузырьковой сортировки, который попеременно при- 
меняет проходы по данным слева направо и справа налево. Этот (более быстро- 
действующий, но в то же время более сложный) алгоритм называется шейкер-сор- 
тировкой (зИакег зогі) (см. рис.6.7). 

• 6.31. Показать, что лемма 6.5 не характерна для шейкер-сортировки (см. упраж- 
нение 6.30). 

•• 6.32. Напишите программу сортировки на Ро$і8сгірІ (см. раздел 4.3) и воспользуй- 
тесь полученной программной реализацией для построения диаграмм типа 6.5 — 
6.7. Можно применить рекурсивную реализацию или обратиться к справочной ли- 
тературе для изучения циклов и массивов Ро$і8сгірІ. 

6.6. Сортировка методом Шелла 

Сортировка вставками не относится к категории быртродействующих, поскольку 
единственный вид операции обмена, который она использует, выполняется над двумя 
соседними элементами, в связи с чем элемент может передвигаться вдоль массива 
лишь на одно место за один раз. Например, если элемент с наименьшим значением 
ключа оказывается в конце массива, потребуется сделать N шагов, чтобы поместить 
его в надлежащее место. Сортировка методом Шелла представляет собой простейшее 
расширение метода вставок, быстродействие которого выше за счет обеспечения 
возможности обмена местами элементов, которые находятся далеко один от друго- 
го. 
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Идея заключается в переупорядочении файла та- 
ким образом, чтобы придать ему следующее свой- 
ство: совокупность А-ых элементов исходного фай- 
ла (начиная с любого) образует отсортированный 
файл. В таком случае говорят, что файл Н-упорядонен 
{Н-$огіесі). Другими словами, Л-упорядоченный файл 
представляет собой И независимо отсортированных 
взаимно проникающих друг в друга файлов. В про- 
цессе Л-сортировки при достаточно больших значе- 
ниях И можно менять местами элементы массива, 
расположенные достаточно далеко друг от друга, и 
тем самым ускорить последующую А-сортировку при 
меньших значениях А. Использование такого рода 
процедуры для любой последовательности значений 
А, которая заканчивается единицей, завершается 
получением упорядоченного файла: именно в этом 
и заключается суть сортировки методом Шелла. 

Один из способов реализации сортировки мето- 
дом Шелла заключается в том, что для каждого А 
независимо используется сортировка вставками на 
каждом из А подфайлов. Несмотря на очевидную 
простоту этого процесса, возможен еще более про- 
стой подход именно благодаря тому, что подфайлы 
независимы. В процессе А-сортировки файла мы 
просто вставляем элемент среди предшествующих 
ему элементов в соответствующем А-подфайле, пе- 
ремещая большие по значению элементы в право 
(см. рис. 6. 8). Эта задача решается путем использова- 
ния программы сортировки вставками, при которой 
каждый шаг перемещения по файлу в сторону уве- 
личения или уменьшения равен А, но не равен 1. С 
учетом данного обстоятельства программная реали- 
зация сортировки методом Шелла сводится всего 
лишь к тому, что для каждого значения шага осуще- 
ствляется проход по файлу, характерный для сорти- 
ровки вставками, аналогичный реализованному в 
программе 6.5. Работа программы показана на рис. 

6.9. 

Возникает вопрос: какую последовательность 
шагов следует использовать? В общем случае на этот 
вопрос трудно найти правильный ответ. В литерату- 
ре опубликованы результаты исследований различ- 
ных последовательностей шагов, некоторые из них 
хорошо зарекомендовали себя на практике, однако 
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РИСУНОК 6.8. ВЗАИМНО 
ПРОНИКАЮЩИЕ 4-СОРТИРОВКИ 

В верхней части данной диаграммы 
показан процесс 4-сортировки 
файла , состоящего из 15 
элементов, сначала выполняется 
сортировка вставками подфайла, 
содержащего элементы в позициях 
О, 4, 8, 12, затем сортировка 
вставками подфайла на позициях 1, 

5, 9, 13, далее сортировка 
вставками подфайла в позициях 2, 

6, 10, 14 и, наконец, сортировка 
вставками подфайла в позициях 3, 

7, 11. Однако все четыре подфайла 
независимы друг от друга, так что 
аналогичный результат можно 
получить, вставляя каждый 
элемент в соответствующую ему 
позицию в его подфайле и 
перемещаясь в обратном 
направлении на четыре элемента за 
один раз (нижняя часть рисунка). 
Беря первый ряд каждого раздела 
верхней диаграммы, затем второй 
ряд каждого раздела и так далее, 
получаем диаграмму в нижней 
части рисунка. 
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наилучшую последовательность, по-видимому, отыскать не 
удалось. В общем случае на практике используются убыва- 
ющие последовательности шагов, близкие к геометрической 
прогрессии, в результате чего число шагов находится в ло- 
гарифмической зависимости от размеров файлов. Напри- 
мер, если размер следующего шага равен примерно поло- 
вине предыдущего, то для сортировки файла, состоящего 
из 1 миллиона элементов, потребуется примерно 20 шагов, 
если такое соотношение примерно равно одной четвертой, 
то достаточно будет 10 шагов. Использование как можно 
меньшего числа шагов — это весьма важное требование, 
которое нетрудно учесть, но при этом в последовательно- 
сти шагов необходимо выдерживать различные арифмети- 
ческие соотношения, такие как величины их общих дели- 
телей и ряд других свойств. 

Практический результат от обнаружения хорошей пос- 
ледовательности шагов, по-видимому, ограничен повыше- 
нием быстродействия алгоритма на 25%, в то же время 
сама проблема представляет собой увлекательную загадку 
— примером того, какие сложные вопросы характерны для 
использования на первый взгляд простого алгоритма. 

Программа 6.5. Сортировка методом Шелла 

Если отказаться от использования сигнальных ключей, а затем 
заменить каждое появление "1” на 77" в сортировке вставками, 
то полученная при этом программа реализует /7-сортировку 
файла. Добавление внешнего цикла, изменяющего значение 
шага, позволяет получить компактную программную реализацию 
сортировки методом Шелла, в которой используется 
последовательность шагов 1 4 13 40 121 364 1093 3280 9841 ... 

Ьетріаѣе Ссіазз І+ет> 

ѵоісі зЬе11зог+ (І+ет а [ ] , іпѣ 1, іпѣ г) 

{ іпЪ Ь ; 

Нот (Ь ■ 1; Ь <= (г-1) / 9 ; Ь = 3*Ь+1) ; 

^ог ( ; Ь > 0; Ь /= 3) 

Нот (іпѣ і = 1+Ь; і <= г; і++) 

{ іггЬ з = і; Іѣвт ѵ = а[і] ; 

ѵЬіІе (з >= 1+Ь && ѵ < а[з-Ь]) 

{ а[з] = а[з-Ь]; з -= Ь; } 
а [ 3 ] = ѵ; 

} 

} 


А 

$ 

О 

В 

Т 

і 

N 

С 

Е 

X 

А 

м 

р 

к 

Е 

А 

3 

О 

Я 

Т 


N 


Т1 7 

X 

А 

і* 

р 

к 

■& 

А 

Е 

О 

в 

•;Т: 


N 

е 

Е 

X 

А 

м 

р 

к 

в 

А 

Е 

О 

Я 

Т 


и 

о 

Е 

X 

А 

м 

р 

к- 

$ 

А 

Е 

О 

в 

т • 

і 

N 

а 

Е 

X 

А 

м 

в 

к 

3 

А 

Е 

N 

я 

т 


О 

с 

Е 

X 

А 

II 

р 

: к’ 

3 

А 

Е 


о 

т 


О 

в 

Е 

X 

А 

й 

в 

1 

3 

А 

Е 

» 

а 

Е 

! 

о 

в 

Т 

X 

А 

м 

р 

ь 

3 

А 

Е 

N 

6 

Е 

1 

о 

в 

/Т 

X 

А 

м 

р 

к 

3 

А 

Е 

А 

в 

Е 

>:Г 

N 

в 

т 

X 

О 

м 

р 

к 

5 

'А 

.Е. 

А 

ь 

Е 


N 

м 

т 

X 

О 

я 

р 

к 

8 

_А 

Е 

А 

о 

Е 


N 

м 

р 

X 

О 

в 

т 

к 

3 

ш 

Е 

А 

а 

Е 


N 

м 

р 

к 

о 

в 

т 

X 

3 

■а 

Е 

А 

с 

Е 


N М 

р 

к 

о 

я 

т 

X 

3 

% 

Е 

А 

о 

Е 


N 

м 

р 

к 

о 

в 

т 

X 

8 

А 

А 

Е 

6 

Е 


N 

м 

р 

к 

о 

я 

т 

X 

3 

А 

А 

Е 

а 

Е 


N 

м 

р 

к 

9 

в 

т 

X 

3 

* 

А, 

Е 

Е 

С 


N 

м 

р 

к 

о 

в 

т 

X 

3 

А 

А 

Ё 

Е 

с 

1 

N 

м 

р 

к 

о 

в 

т 

X 

3 

/:А 

А 

Е 

Ё 

с 


N 

м 

р 

к 

о 

в 

т 

X 

3 

А-: 

А 

Е 

€ 

с 


М 

N 

р 

к 

р 

в 

т 

X 

3 

ІА 

А 

Е 

Е 

а 


м 

N 

р 

к 

о 

я 

т 

X 

3 

А 

А 

* 

Е 

а 


С 

м 

N 

р 

о 

в 

т 

х 

3 

А 

А 

Е 

Е 

а 


І. 

м 

N 

о 

р 

в 

т 

X 

3 

А 

А 

Е 

Е 

а 


.Ё' 

м 

N 

о 

р 

в 

:.Т- 

X 

3 

А 

А 

Е 

Е 

а 


к 

м 

N 

о 

р 

в 

т 

X 

3 

А 

А 

Е 

Е 

с 

1 

Е 

м 

N 

о 

р 

в 

т; 

X 

3 

А 

А 

Е 

Е 

с 


к 

м 

N 

о 

р 

в 

$ 

т 

X 

А 

А 

Е 

Е 

с 

1 

к 

м 

N 

о 

р 

в 

3 

т 

X 


РИСУНОК 6.9. ПРИМЕР 
СОРТИРОВКИ МЕТОДОМ 
ШЕЛЛА. 

Сортировка файла при 
помощи 13 -сортировки 
(сверху), с последующими 4- 
сортировкой (в центре) и 
1 -сортировкой (внизу), не 
требует выполнения 
большого объема операций 
сравнения (о чем можно 
судить по количеству 
незаштрихованных 
элементов). Завершающий 
проход есть ни что иное 
как сортировка вставками, 
но при этом ни один из 
элементов не должен 
далеко перемещаться 
благодаря порядку, 
установленному в файле на 
двух первых проходах. 


Последовательность шагов 1 4 13 40 121 364 1093 3280 9841 ..., используемая в 
программе 6.5, в которой соотношение соседних шагов составляет приблизительно 
одну треть, была рекомендована Кнутом в 1969 г. (см. раздел ссылок). Она просто вы- 
числяется (начав с 1, получить значение следующего шага, умножив предыдущее зна- 
чение на 3 и добавив 1) и обеспечивает реализацию сравнительно эффективной сор- 
тировки даже в случае относительно больших файлов (см. рис. 6. 10). 
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РИСУНОК 6.10. СОРТИРОВКА МЕТОДОМ ШЕЛЛА СЛУЧАЙНО РАСПРЕДЕЛЕННОЙ ПЕРЕСТАНОВКИ 

Целью каждого прохода при сортировке методом Шелла состоит в том , чтобы привнести в файл 
как единое целое большую степень упорядоченности. Сначала файл подвергается 40-сортировке , 
затем 13-сортировке , далее 4-сортировке, и наконец , 1-сортировке. Каждый проход приближает 
порядок в файле к окончательному. 

Многие другие последовательности шагов позволяют получить еще более эффек- 
тивную сортировку, однако довольно трудно превзойти эффективность программы 
6.5 более чем на 20 % даже в случае сравнительно больших значений N. Одной из та- 
ких последовательностей является 1 8 23 77 281 1073 4193 16577 т.е. последова- 
тельность 4 ,+1 + 3 • 2 ' + 1 для / > 0 . Можно доказать, что приведенная последователь- 
ность обеспечивает повышенное быстродействие для самых трудных случаев 
сортировки (см. лемму 6 . 10 ). Рисунок 6.12 показывает, что эта последовательность, 
равно как и последовательность Кнута, а также многие другие последовательности 
шагов, обладают похожими динамическими характеристиками для файлов больших 
размеров. Вполне возможно, что существуют лучшие последовательности. Несколь- 
ко идей по улучшению последовательностей шагов приводится в разделе упражнений. 

С другой стороны, существуют и плохие последовательности шагов: например, 1 
2 4 8 16 32 64 128 256 512 1024 2048 (первая последовательность шагов, пред- 
ложенная Шеллом еще в 1959 г. (см. раздел ссылок)), скорее всего, служит причиной 
низкой эффективности сортировки, поскольку элементы на нечетных позициях не 
сравниваются с элементами на четных позициях влоть до последнего прохода. Этот 
эффект заметен на файлах с произвольной организацией, он становится катастрофи- 
ческим в наихудших случаях: эффективность метода резко снижается и время выпол- 
нения сортировки становится пропорциональным квадрату N 1 если, например, поло- 
вина элементов файла с меньшими значениями находится в четных позициях, а 
другая половина элементов (с большими значениями) — в нечетных позициях (см. уп- 
ражнение 6.36). 

Программа 6.5 вычисляет следующий шаг, разделив текущий шаг на 3 после ини- 
циализации с таким расчетом, чтобы всегда использовалась одна и та же последова- 
тельность шагов. Другой вариант заключается в том, что сортировка начинается с 
Ь=ІЧ/3 или для этой цели используется другая функция от N. Но лучше отказаться от 
стратегий подобного рода, ибо для некоторых значений N могут появиться плохие 
последовательности шагов наподобие описанной выше. 

Наше описание эффективности сортировки методом Шелла не отличается особой 
точностью, поскольку никому еще не удалось выполнить точный анализ этого алго- 
ритма. Этот пробел в наших знаниях затрудняет не только оценку различных после- 
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довательностей шагов, но и аналитическое сравнение сортировки методом Шелла с 
другими методами сортировки. Не известна даже функциональная форма для опре- 
деления времени выполнения сортировки методом Шелла (более того, эта форма 
зависит от выбора последовательности шагов). Кнут обнаружил, что функциональные 
формы N ( 1о§УѴ) 2 и А^ 1 25 довольно точно описывают ситуацию, а дальнейшие иссле- 
дования показали, что для некоторых видов последовательностей подходят более 
сложные функции вида дг 1+,/ Ѵ^ 

В завершение текущего раздела отвлечемся от основной темы и обсудим некото- 
рые известные результаты исследования сортировки методом Шелла. Основная цель 
таких обсуждений состоит в том, чтобы показать, что даже алгоритмы, которые на 
первый взгляд кажутся простыми, обладают сложными свойствами, а анализ алгорит- 
мов имеет не только практическое значение, но и может представлять собой интерес- 
ную научную задачу. Для тех читателей, которых увлекла идея поиска новых, более 
совершенных последовательностей шагов сортировки методом Шелла, следующая 
ниже информация окажется весьма полезной; все остальные могут сразу перейти к 
изучению раздела 6.7. 

Лемма 6.7. Результатом к-сортировки к -упорядоченного файла есть к- и к-упорядочен- 
ный файл. 

Этот факт кажется очевидным, однако чтобы его доказать, потребуются значи- 
тельные усилия (см. упражнение 6.47). 

Лемма 6.8. Сортировка методом Шелла выполняет менее УѴ(/7 — 1 )(к — I)/# операций 
сравнения при сортировке И- и к-упорядоченного файла при условии , что кик взаим- 
но просты . 

Основа этого факта показана на рис. 6.11. Ни один элемент, расположенный даль- 
ше (к - 1)(& - 1) позиций слева от любого заданного элемента х, не может быть 
больше х, если к и к взаимно просты (см. упражнение 6.43). При ^-сортировке 
проверяются не более одного из # таких элементов. 

Лемма 6.9. Сортировка методом Шелла выполняет менее О ^ 3/2 ) операций сравнения 
для последовательности шагов 1 4 13 40 121 364 1093 3280 9841... 

Для больших шагов, когда имеются к подфайлов размером УѴ/А, в наихудшем слу- 
чае расходы составляют примерно N 2 /к. При малых шагах из леммы 6.8 следует, 
что стоимость составляет приблизительно Ш. Все зависит от того, насколь успешно 
удастся вписаться в эти границы на каждом шаге. Это справедливо для каждой от- 
носительно простой последовательности, возрастающей экспоненциально. 

Лемма 6.10. Сортировка методом Шелла выполняет менее О (N 4/3 ) операций сравне- 
ния для последовательности шагов 1 8 23 77 281 1073 4193 16577... 

Доказательство этой леммы практически не отличается от доказательства леммы 
6.9. Из леммы, аналогичной лемме 6.8, следует, что стоимость сортировки при не- 
больших значениях шагов принимает значение порядка N А 1/2 . Доказательство этой 
леммы требует привлечения аппарата теории чисел, что выходит за рамки данной 
книги (см. раздел ссылок). 
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РИСУНОК 6.11. 4- И 13-УПОРЯДОЧЕННЫЙ ФАЙЛ. 

Нижний ряд изображает массив , при этом заштрихованные квадратики обозначают элементы, 
которые должны быть меньше или равны крайнему правому элементу массива, если этот массив 4- и 
13 -упорядоченный. 4 верхних ряда отражают, как появился нижний ряд. Если элемент справа 
находится в массиве в позиции і, то 4-упорядочение означает, что элементы массива в позициях і-4, 
і-8, і-12, ... меньше или равны ему (верхний ряд); 13-упорядочение означает, что элемент і-13, а 
вместе с ним, в силу 4-упорядочения, и элементы і-17, і-21, і-25, ... меньше или равны ему (второй 
ряд сверху); по той же причине элемент в позиции і-26, а вместе с ним, в силу 4 -упорядочения , и 
элементы і-30, і-34, і-38, ... меньше или равны ему (третий ряд сверху), и т.д. Оставшиеся 
незаштрихованными квадратики суть те, которые могут быть больше, чем элемент слева; в 
рассматриваемом примере таких элементов самое большее 18 (дальше всех находится элемент в 
позиции і-36). Таким образом, потребуется выполнить самое большее 18N сравнений при сортировке 
вставками 13- и 4-упорядоченного файла, состоящего из N элементов. 


Последовательности шагов, которые рассматривались до сих пор, эффективны в 
силу того, что следующие один за другим элементы последовательности взаимно про- 
сты. Другое семейство последовательностей шагов эффективно именно благодаря 
тому, что такие элементы не являются взаимно простыми. 

В частности, из доказательства леммы 6.8 следует, что в процессе завершающей 
сортировки вставками 2- и 2-упорядоченного файла каждый элемент перемещается 
самое большее на одну позицию. Это значит, что такой файл может быть отсортиро- 
ван за один проход пузырьковой сортировки (отпадает необходимость в дополнитель- 
ном цикле). Теперь, если файл ^-упорядочен и 6-упорядочен, то из этого следует, что 
каждый элемент перемещается максимум на одну позицию, если выполнить его 2- 
упорядочение (поскольку каждый подфайл 2- и 3-у порядочен); и если файл 6-упоря- 
дочен и 9-упорядочен, то каждый элемент перемещается самое большее на одну по- 
зицию при его 2-сортировке. Продолжая рассуждения в этом направлении, мы 
приходим к идее, которую Пратт опубликовал в 1971 г. (см. раздел ссылок). 

Метода Пратта основан на использовании треугольника шагов, причем каждое 
входящее в этот треугольник число в два раза больше числа, стоящего сверху спра- 
ва, и в три раза больше числа, стоящего в треугольнике сверху слева. 

1 

2 3 

4 6 9 

8 12 18 27 

16 24 36 54 81 

32 48 72 108 162 243 

64 96 144 216 324 486 729 
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Если мы используем эти числа снизу вверх и справа налево как последователь- 
ность шагов в рамках сортировки методом Шелла, то каждому шагу х в нижнем ряду 
предшествуют значения 2х и Зх, так что каждый подфайл оказывается 2-упорядочен 
и 5-упорядочен и ни один элемент не передвигается больше, чем на одну позицию в 
процессе всей сортировки! 

Таблица 6.2. Эмпирическое исследование последовательностей 

шагов сортировки методом Шелла. 

Сортировка методом Шелла выполняется в несколько раз быстрее по сравнению с 
другими элементарными методами сортировки даже в тех случаях, когда шаги 
являются степенями 2, в то же время некоторые специальные виды 
последовательностей шагов позволяют увеличить ее быстродействие в 5 и более раз. 

Три лучших последовательности, приведенные в данной таблице, существенно 
различаются по положенным в их основу принципам. Сортировка методом Шелла 
вполне пригодна для практических приложений даже в случае файлов больших 
размеров; по эффективности она намного превосходит методы выбора и вставок, 
равно как и пузырьковую сортировку (см. таблицу 6.1). 


N 

О 

К 

С 

5 

Р 

1 

12500 

16 

6 

6 

5 

6 

6 

25000 

37 

13 

11 

12 

15 

10 

50000 

102 

31 

30 

27 

38 

26 

1 00000 

303 

77 

60 

63 

81 

58 

200000 

817 

178 

137 

139 

180 

126 


Ключи: 

О 1 2 4 8 16 32 64 128 256 512 1024 2048 ... 

К 1 4 13 40 121 364 1093 3280 9841 ... (лемма 6.9) 

0 1 2 4 10 23 52 113 249 548 1207 2655 5843 ... (упражнение 6.40) 

8 1 8 23 77 281 1073 4193 16577 ... (лемма 6.10) 

Р 1 7 8 49 56 64 343 392 448 512 2401 2744 ... (упражнение 6.44) 

1 1 5 19 41 109 209 505 929 2161 3905 ... (упражнение 6.45) 


Лемма 6.11. Сортировка методом Шелла выполняет менее 0( УѴ( 1о§7Ѵ) 2 ) операций 
сравнения для последовательности Шагов 1 2 3 4 6 9 8 12 18 27 16 24 36 54 81... 

Число шагов из треугольника, которое меньше N по величине, и подавно будет 
меньше (Іо^А^) 2 . 

Последовательности шагов, предложенные Праттом, на практике проявляют тен- 
денцию работать хуже, чем другие, поскольку, их слишком много. Мы можем вос- 
пользоваться тем же принципом построения последовательностей шагов на базе лю- 
бых двух взаимно простых чисел И к к. Такие последовательности шагов показывают 
хорошие результаты, поскольку границы в худших случаях, соответствующие лемме 
6.11, дают завышенную оценку стоимости сортировки файлов с произвольной орга- 
низацией. 

Проблема построения хорошей последовательности шагов для сортировки мето- 
дом Шелла представляет собой прекрасный пример сложного поведения простых ал- 
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горитмов. Разумеется, мы, не имеем возможности анали- 
за всех алгоритмов, которые будут встречаться далее, на 
таком же уровне детализации (этому препятствует не 
только ограниченное пространство данной книги, но, 
как и в случае сортировки методом Шелла, может про- 
изойти так, что потребуется математический анализ, вы- 
ходящий за рамки материала книги, а, возможно, и спе- 
циальные исследования). Тем не менее, многие 
алгоритмы, рассматриваемые в данной книге, являются 
результатом широких аналитических и эмпирических ис- 
следований, выполненных исследователями за несколько 
последних десятилетий, посему можно воспользоваться 
плодами их трудов. Эти исследования показывают, что 
задача повышения эффективности сортировки во многих 
случаях представляет собой интересную научную пробле- 
му и часто приносит неплохие практические результаты, 
даже в случаях простых алгоритмов. В табл. 6.2 приведе- 
ны эмпирические данные, которые показывают, что не- 
которые подходы к построению последовательностей 
шагов хорошо работают на практике; относительно ко- 
роткая последовательность 1 8 23 77 281 1073 4193 
16577 ... — одна из самых простых, какие используются 
в программных реализациях сортировки методом Шелла. 

Из рис. 6.13. следует, что сортировка методом Шелла 
обеспечивает хорошие результаты на различных видах 
файлов и несколько хуже — в случае файлов с произволь- 
ной организацией. В самом деле, построение файла, на 
котором сортировка методом Шелла выполняется мед- 
ленно на заданной последовательности шагов, — доста- 
точно сложная задача (см. упражнение 6.42). Как уже от- 
мечалось ранее, существуют плохие последовательности 
шагов, при использовании которых в сортировке мето- 
дом Шелла требуемое число операций сравнения в наи- 
худшем случае находится в квадратичной зависимости от 
размера файла (см. упражнение 6.36), однако доказано, 
что для широкого набора таких последовательностей эта 
оценка намного лучше. 

Сортировка методом Шелла выбирается для многих 
приложений, поскольку она обеспечивает приемлемое 
время сортировки даже для достаточно больших файлов и 
реализуется в виде компактной программы, которую лег- 
ко заставить работать. В следующих главах мы ознако- 
мимся с методами сортировки, которые, возможно, более 
ют всего лишь в два раза быстрее (а то и того меньше) при 
но при этом они существенно сложнее. Короче говоря, если 



РИС. 6.12. ДИНАМИЧЕСКИЕ 
ХАРАКТЕРИСТИКИ 
СОРТИРОВКИ МЕТОДОМ 
ШЕЛЛА (ДВЕ РАЗЛИЧНЫЕ 
ПОСЛЕДОВАТЕЛЬНОСТИ 
ШАГОВ) 

Представленный на рисунке 
процесс выполнения 
сортировки методом Шелла 
можно сравнить с резиновой 
лентой , неподвижно 
закрепленной в 
противоположных углах , 
когда все точки ленты 
устремляются в направлении 
диагонали. Отображены две 
последовательности шагов: 
121 40 13 4 1 (слева) и 209 
109 41 19 5 1 (справа). 
Вторая последовательность 
требует выполнения на один 
проход больше, но в то же 
время она выполняется 
быстрее, поскольку каждые 
ее проход более эффективен. 

эффективны, но работа- 
небольших значениях N. 
необходимо решить про- 
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блему сортировки, но нет желания изучать интерфейс системной сортировки, следу- 
ет воспользоваться сортировкой методом Шелла\ несколько позже вы решите, есть ли 
смысл прилагать дополнительные усилия, чтобы заменить его на более совершенный 
метод сортировки. 

Упражнения 

> 6.33. Устойчива ли сортировка методом Шелла? 

6.34. Показать, как следует построить программу, реализующую сортировку ме- 
тодом Шелла с последовательностью шагов 1 8 23 77 281 1073 4193 16577 ... с не- 
посредственным вычислением последовательных шагов, используя для этой цели 
метод, подобный примененному для разработки программы, вычисляющей шаги 
последовательности Кнута. 

> 6.35. Представить диаграммы, соответствующие рис. 6.8 и 6.9 для ключей Е А 8 V 
О V Е 8 Т I О N. 

6.36. Определить время выполнения программы сортировки методом Шелла с 
последовательностью шагов 1 2 4 8 16 32 64 128 264 512 1024 2048 ... для сор- 
тировки файла, состоящего из целых чисел 1, 2 , ..., N на нечетных позициях и 
N + 1, N + 2 , ..., 2 N на четных позициях. 

6.37. Написать программу-драйвер, способную выполнять сравнения последова- 
тельностей шагов сортировки методом Шелла. Последовательность считываются из 
стандартного ввода, по одному значению шага в строке; затем используется для 
сортировки 10 файлов с произвольной организацией длины УѴ, для N = 100, 1000 
и 10000. Подсчитать количество операций сравнения или замерить фактическое 
время выполнения сортировки для каждого файла. 

• 6.38. Выполните эксперимент с целью определения, позволяет ли добавление или 
удаление отдельного шага улучшить последовательность шагов 1 8 23 77 281 1073 
4103 16577... для 7Ѵ= 10000. 

• 6.39. Выполните эксперимент с целью определения значения х, которое обеспе- 
чивает минимальное время сортировки случайно распределенных файлов, если в 
последовательности 1 4 13 40 121 364 1093 3280 9841... для N =10000 шаг 13 за- 
менить на х. 

6.40. Выполните эксперимент с целью определения значения а, которое обеспе- 
чивает минимальное время сортировки файлов с произвольной организацией для 
последовательности шагов 1, [а], Іа 2 ], Іа 3 ], Іа 4 ], ...; где N =10000. 

• 6.41. Для файлов с произвольной организацией, содержащих 1000 элементов, най- 
ти последовательность из трех шагов, которая обеспечивает выполнение мини- 
мально возможного числа операций сравнения, какое только удастся обнаружить. 

••6.42. Построить файл из 100 элементов, для которого сортировка методом Шел- 
ла с последовательностью шагов 1 8 23 77 выполняет максимально возможное ко- 
личество операций сравнения, какое только удастся найти. 

• 6.43. Доказать, что любое число, большее или равное (к — 1)(к — 1), может быть 
представлено в виде линейной комбинации (с неотрицательными коэффициента- 
ми) И и к , если к и к — взаимно простые числа. Совет : покажите, что если при де- 
лении на к два первых из к — 1 кратных к , имеют один и тот же остаток от деле- 
ния на /?, то к и к должны иметь общий множитель. 
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6.44. Выполните эксперимент с целью определения значений И и к, которые обес- 
печивают наименьшие показатели времени сортировки файлов с произвольной 
организацией; в качестве шагов для сортировки 10000 элементов используется пос- 
ледовательность, подобная последовательности Пратта, при построении которой 
использованы И и к. 

6.45. Последовательность шагов 1 5 19 41 109 209 505 929 2161 3905 ... постро- 
ена путем слияния последовательностей 9 • 4' - 9 • 2' +1 и 4' — 3 • 2' +1 для / > 0. 
Сравните результаты использования этих последовательностей по отдельности с ре- 
зультатом использования их слияния на примере сортировки 10000 элементов. 

6.46. Последовательность шагов 1 3 7 21 48 112 336 861 1968 4592 13776... по- 
лучена на базе последовательности, состоящей из взаимно простых чисел, скажем, 
1 3 7 16 41 101, с последующим построением треугольника из последовательно- 
сти Пратта. В данном случае /-й ряд треугольника получен путем умножения пер- 
вого элемента в /-1-ом ряду на /- й элемент базовой последовательности и путем 
умножения каждого элемента в /-1-ом ряду на Ж-ый элемент базовой последо- 
вательности. Проведите эксперименты с целью выявления базовой последователь- 
ности, которая превосходит указанную выше в процессе сортировки 10000 элемен- 
тов. 

• 6.47. Завершите доказательство лемм 6.7 и 6.8. 

• 6.48. Построить реализацию, в основу которой положен алгоритм шейкер-сорти- 
ровки (упражнение 6.30), и сравнить со стандартным алгоритмом. Совет : следует 
воспользоваться такими последовательностями шагов, которые существенно отли- 
чаются от последовательностей, применяемых в стандартных алгоритмах. 


РИСУНОК 6.13. ДИНАМИЧЕСКИЕ 
ХАРАКТЕРИСТИКИ СОРТИРОВКИ 
МЕТОДОМ ШЕЛЛА РАЗЛИЧНЫХ ТИПОВ 
ФАЙЛОВ 

На представленных диаграммах показана 
сортировка методом Шелла с 
последовательностью шагов 209 109 41 19 
5 1 для файла с произвольной 
организацией , нормально распределенного 
файла , практически упорядоченного 
файла и случайно распределенного фай/іа с 
10 различными значениями ключей (слева 
направо, сверху). Время выполнения 
каждого прохода зависит от того, 
насколько упорядочен файл к моменту 
начала прохода. После выполнения 
нескольких проходов все эти файлы будут 
упорядоченными одинаково; таким 
образом, время выполнения сортировки не 
очень чувствительно к виду входных 
данных. 
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6.7. Сортировка других типов 





Несмотря на то что при исследовании алгоритмов целесообразно рассматривать их 
как процедуру, выполняющую размещение массивов чисел в порядке их возрастания 
или размещение символов в алфавитном порядке, необходимо признать, что эти ал- 
горитмы, в основном, не зависят от типа сортируемых элементов, в связи с чем не- 
трудно сделать определенные обобщения. Мы подробно рассуждали о том, как раз- 
бить программы на отдельные независимые модули, ориентированные на работу с 
конкретными типами данных, а также о работе с абстрактными типами данных (см. 
главы 3 и 4); в настоящем разделе обсуждаются способы применения рассмотренных 
понятий с целью построения программных реализаций, интерфейсов и клиентских про- 
грамм для алгоритмов сортировки. В частности, будут рассматриваться интерфейсы для: 

■ элементов или обобщенных объектов, подлежащих сортировке 


■ массивов элементов. 


Тип данных Нет (элемент) предоставляет возможность использования программы 
сортировки для любых типов данных из числа тех, для которых определены некото- 
рые виды базовых операций. Такой подход эффективен не только для простых, но и 
для абстрактных типов данных, в связи с чем мы перейдем к изучению множества 
программных реализаций. Интерфейс аггау (массив) менее критичен для нашей за- 
дачи; мы остановимся на нем с тем, чтобы получить навыки работы с многомодуль- 
ной программой, которая имеет дело с несколькими типами данных. Мы рассмотрим 
только одну из (достаточно простую) программных реализаций интерфейса аггау. 

Программа 6.6 является клиентской программой, снабженной теми же общими 
функциональными средствами, что и функция таіп из программы 6.1, и пополнен- 
ной возможностями манипуляции массивами и элементами, инкапсулированными в 
отдельных модулях. Это обеспечивает, в частности, возможность тестирования про- 
грамм сортировки на различных типах данных путем замены одних модулей на дру- 
гие, не внося при этом каких-либо изменений в клиентскую программу. Программа 
6.6 обращается к интерфейсу с целью выполнить операции ехсЬ и сошрехсЬ, исполь- 
зуемые программными реализациями различных видов сортировки. Можно было бы 
настоять на том, чтобы эти программные средства были включены в интерфейс 
Неш.Ь, однако реализации сортировок в программе 6.1, благодаря легко понимаемой 
семантике при определении операторов присваивания и оператора орега*ог<, впол- 
не подходят для нашей цели, так что проще содержать их в одном модуле, где они 
могут быть использованы всеми построенными реализациями для всех выбранных 
типов данных кет. В завершение программной реализации следует дать точное оп- 
ределение интерфейсов аггау и типа данных Нет и только после этого предлагать соб- 
ственные программные реализации. 

Программа 6.6. Драйвер сортировки массивов 

Данный драйвер базовых сортировок массивов использует три явных интерфейса: 
первый для типа данных, который инкапсулирует операции, выполняемые на 
обобщенных элементах; Следующий предназначен для функций ехсН и сотрехсН 
несколько более высокого уровня, которые используются в программных реализациях 
сортировок; и третий — для функций, которые инициализируют и печатают (а также 
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сортируют!) массивы. Разбивая драйвер на соответствующие модули, получаем 
возможность применить каждую реализацию сортировки к различным типам данных 
без необходимости внесения в программы каких-либо изменений, совместно 
использовать реализации операций обмена и сравнения-обмена, а также 
компилировать эти функции отдельно для массивов (возможно, для их использования 
в других программах-драйверах). 

#іпс1исів СзЫ1іЬ.Ъ> 

#іпс1и<іе "Іѣехп.Ь" 

#іпс1шіе "ехсЬ.Ь" 

#іпс1исіе "Аггау.Ь" 
таіп(іпѣ агдс, сЬаг *агдѵ[]) 

{ іпЪ N = аЪоі (агдѵ [1] ) , зѵ = аіоі (агдѵ [2] ) ; 

Нет *а = пеѵ Нет [И] ; 

(зѵ) гапсі(а, И); еізе зсап(а, И) ; 
зогѣ(а, О, N-1) ; 
зЬсж(а, О, N-1) ; 

} 


Программа 6.7. Интерфейс для данных типа массив. 

Интерфейс Аггау.Н определяет высокоуровневые функции для массивов абстрактных 
элементов: инициализирует случайными значениями, инициализирует значениями, 
считанными из стандартного ввода, распечатывает содержимое и выполняет сортировку 
содержимого. 


‘Ьетріаѣе 

Ссіаез Нет> 





ѵоісі 

гапс^Нет а [ ] , 

іпЪ 

К) ; 



ѣетріаѣе 

Ссіазз І1ет> 





ѵоісі 

зсап(Иет а [ ] , 

іп'Ь 

&**) 

• 

г 


Ѣетріа-Ье 

Ссіазз Иет> 





ѵоісі 

зЬоѵІІѢет а [ ] , 

іпѣ 

1, 


Г) ; 

'ЬетрІа'Ье 

Ссіазз Пет> 





ѵоісі 

зог'Ь (Нет а [ ] , 

іпѣ 

1, 

іп'Ь 

г) ; 


Интерфейс программы 6.7. определяет примеры высокоуровневых операций, ко- 
торые можно выполнять над массивами. Требуется реализовать возможность иници- 
ализировать массив значениями ключей, которые имеют случайное распределение 
или поступают из стандартного ввода; кроме того необходимо иметь возможность 
сортировать вхождения (а как же!) и, наконец, иметь возможность печатать содержи- 
мое массивов. Это только лишь несколько примеров; в конкретном приложении мо- 
жет возникнуть необходимость определять и другие операции (класс Уесіог в библио- 
теке стандартных шаблонов является одним из подходов, обеспечивающим 
обобщенный интерфейс этого вида). Пользуясь программой 6.7, можно подставлять 
различные реализации той или иной операции без необходимости внесения измене- 
ний в клиентскую программу, которая использует этот интерфейс — в данном слу- 
чае, в функцию таіп программы 6.6. Исследуемые здесь различные реализации сор- 
тировок могут служить реализациями функции 80гі. В программе 6.8 имеются простые 
реализации других функций. Модульная организация программы позволяет подстав- 
лять другие реализации в зависимости от приложения. Например, можно воспользо- 
ваться реализацией функции 8 Ііоіѵ, которая печатает только часть массива при про- 
верке сортировки массивов очень больших размеров. 
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Программа 6.8. Реализация типа данных массива 

Приведенный ниже код представляет собой реализацию функций, определенных в 
программе 6.7. Эта реализация использует типы Нет и обрабатывающие их базовые 
функции, которые определены в отдельном интерфейсе (см. программу 6.9). 

#іпс1исіе СіозЪгеаш. Ь> 

#±пс1ис1е <зѣсі1±Ь.1і> 

#іпс1исіе "Аггау.Ь" 

'Ьехпріаіе <с1азз Іѣет> 
ѵоісі гапсі(І1ет а[] , іпЪ И) 

{ ±ог (іпЪ і = 0; і < И; і++) гапсі(а[і]); } 

'ЬетрІа'Ье <с1азз І1:ет> 
ѵоісі зсап (Нет а [ ] , іпЪ &И) 

{ ±ох (іпЪ і = 0; і < И; і++) 

Н ( ! зсап (а [і] ) ) Ьгеак; 

N = і; 

} 

ЪетрІаЪе <с1азз І1:ет> 
ѵоісі зЬоѵ(ІЪет а[], іпЪ 1, іп*Ь г) 

{ ±ог (іпЪ і = 1; і <=г; і++) 

зЬоѵг (а [і] ) ; 
соиі « епсіі ; 

} 


Подобным же образом, чтобы иметь возможность работать с конкретными типа- 
ми элементов и ключей, мы даем определения их типов и объявляем все необходи- 
мые операции над ними в явном интерфейсе, а затем следуют реализации этих опе- 
раций, определенных в интерфейсе элемента. Например, рассмотрим приложение в 
виде некоторого бухгалтерского отчета, в котором могут быть использованы ключи, 
соответствующие номеру счета клиента, и числа с плавающей точкой, соответствую- 
щие сумме на счетах клиента. Программа 6.9 являет собой пример интерфейса, ко- 
торый определяет тип данных для такого рода приложения. Код этого интерфейса 
объявляет операцию <, которая нужна для сравнения ключей, а также для функций, 
которые генерируют случайные значения ключей, считывают ключи и выводят значения 
ключей на печать. В программе 6.10 содержатся реализации функций, используемых в 
этом простом примере. Разумеется, можно приспособить эти реализации под конкретные 
приложения. Например, Иеш может иметь абстрактный тип данных (АТД)), определен- 
ный в виде класса С++, а ключи могут быть функциями-членами класса, а не элемен- 
тами данных соответствующей структуры. Такие АТД рассматриваются в главе 12. 

Программа 6.9. Пример интерфейса для данных типа Нет 

Файл Нет. И, включенный в программу 6.6, дает определение типа данных 
сортируемых элементов. В этом примере элементами являются небольшие записи, 
состоящие из целочисленных ключей, и связанная с ними информация, представленная 
числами с плавающей точкой. Мы объявляем, что перегруженная операция орегаіоК 
будет реализована отдельно, равно как и три функции: зсап (считывает Нет в своем 
аргументе), гапгі (сохраняет случайный Нет в своем аргументе), зНою (печатает Нет). 

ѣуресіеі зЪгисЪ гесогсі { іпѣ кеу; ^Іоаѣ іп^о; } Пет; 
іпѣ орегаѣог< (сопзѣ Иет&, сопвѣ Иет&) ; 
іпѣ зсап (Иет&) ; 
ѵоісі гапсі(Иет&) ; 
ѵоісі зЪоѵг (сопзѣ Пет&) ; 
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Программы 6.6— 6Л 0 вместе с любыми подпрограммами сортировки из числа пред- 
ставленных в разделах 6.2— 6.6, тестирует сортировку небольших по размерам записей. 
Построение такого рода интерфейсов и реализаций для других типов данных позво- 
ляет применять рассмотренные выше методы для сортировки различных видов дан- 
ных — таких как комплексные числа (см. упражнение 6.50), векторы (см. упражне- 
ние 6.55) или полиномы (см. упражнение 6.56) — и при этом вообще без каких-либо 
изменений в кодах программ сортировки. Для более сложных типов элементов интер- 
фейсы и реализации также должны быть более сложными, однако решение проблем 
реализации полностью отделено от вопросов построения алгоритмов сортировки, ко- 
торые были предметом наших исследований. Одни и те же механизмы можно задей- 
ствовать для большинства методов сортировки, рассматриваемых в данной главе, а 
также тех, которые будут изучаться в главах 7—9. В разделе 6.10 мы подробно про- 
анализируем одно очень важное исключение — в результате анализа станет ясно, что 
целое семейство алгоритмов сортировки, которое должно иметь совсем другое кон- 
структивное оформление, заслуживает того, чтобы стать предметом изучения в гла- 
ве 10. 

Рассмотренный в этом разделе подход является своего рода средним путем меж- 
ду программой 6.1 и имеющими перспективы промышленного применения полнос- 
тью абстрактным набором реализаций, дополненных средствами выявления ошибок, 
управления памятью и даже более универсальными возможностями. Подобного рода 
проблемы конструктивного оформления программ приобретают все большую акту- 
альность в некоторых современных областях программирования и приложений. Ряд 
вопросов придется оставить без ответа. Основная цель заключается в том, чтобы ис- 
пользуя сравнительно простые механизму из изученных показать, что программные 
реализации исследуемых сортировок находят широкое применение. 

Программа 6.10. Пример реализации типа данных 

Этот программный код является реализацией перегруженной операции орегаіоК и. 
функций 5сап, гапсі и зйоѵѵ, которые объявлены в программе 6.9. Поскольку записи 
представляет собой структуры небольших размеров, можно сделать так, чтобы функция 
ехсИ использовала встроенный оператор присваивания без ненужных забот 
относительно затрат на копирование элементов. 

#іпс1исіе <іоз‘Ьгеат.Ъ> 

#іпс1исіе <зі:сі1іЪ. Ъ> 

#±пс1исіѳ "І'Ьет.Ъ" 

іпѣ орегаѣог< (сопзѣ Іѣѳт& А, сопзЪ Іѣетб В) 

{ геЪигп А.кеу < В.кеу; } 
іпѣ зсап(І'Ьедп& х) 

{ геілігп (сіп » х.кеу » х.іп^о) != 0; } 

ѵоісі гапсі (Натб х) 

{ х.кеу = 1000* (1 . 0*гапсі() /КАѢГО_МАХ) ; 
х.іп*о * 1.0* гапсі () /КАЛАМАХ; > 
ѵоісі зНо*г(сопзѣ Іѣет& х) 

{ соиѣ « х . кеу « " " « х . іпіго « епсіі ; } 
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Упражнения 

6 . 49 . Напишите свою версию программ 6.9 и 6.10, в которых выполняется пере- 
грузка операций орега(ог<< и орега*ог>> вместо того, чтобы пользоваться функ- 
циями §сап и 8Ьо\ѵ, а также внесите соответствующие изменения в программу 6.8, 
обеспечивающие использование созданного интерфейса. 

6.50. Напишите интерфейс и реализацию типа данных обобщенных элементов для 
поддержки мето да сорти ровки комплексных чисел х + />, использующих качестве 
ключа модуль ^х 2 + у 2 . Совет : игнорирование операции извлечения квадратно- 
го корня, по-видимому, повысит эффективность. 

о 6.51. Напишите интерфейс, который дает определение абстрактного типа данных 
первого класса для обобщенных элементов (см. раздел 4.8) и построить реализа- 
цию, в которой, как и в предыдущем упражнении, элементами являются комплек- 
сные числа. Протестируйте созданный интерфейс с программами 6.3 и 6.6. 

> 6.52. Добавить функцию сЬеск в тип данных аггау в программах 6.8 и 6.9, которые 
проверяют, упорядочен ли массив с помощью сортировки. 

• 6.53. Добавить функцию (е8{іпіі в тип данных аггау в программах 6.8 и 6.7, кото- 
рая генерирует данные для тестирования в соответствии с распределениями, по- 
добными показанным на рис. 6.13. Ввести целочисленный аргумент, посредством 
которого клиентская программа сможет выбирать соответствующее распределение. 

• 6.54. Внести в программы 6.7 и 6.8 такие изменения, которые позволили бы реа- 
лизовать тип данных аЬ8ігасі. (Ваша реализация должна распределять и поддержи- 
вать массив именно так, как это делают наши реализации стеков и очередей в гла- 
ве 3.) 

о 6.55. Напишите интерфейс и реализацию для обобщенного типа данных Иеш с та- 
ким расчетом, чтобы известные методы сортировки можно было использовать с 
целью сортировки многомерных векторов из сі целых чисел, размещая их в таком 
порядке: сначала идут векторы с наименьшей первой компонентой, из векторов 
с равными первыми компонентами первым идет тот, у которого меньше вторая 
компонента, из векторов с равными первыми и вторыми компонентами первым 
идет тот, у которого меньше третья компонента и т.д. 

6.56. Напишите интерфейс и реализацию для обобщенного типа данных Нет с та- 
ким расчетом, чтобы известные методы сортировки можно было использовать для 
сортировки полиномов (см. раздел 4.9). В рамках этой задачи потребуется опреде- 
лить соответствующий порядок. 

6.8 Сортировка по индексам и указателям 

Разработка данных типа строка, подобного используемым в программах 6.9 и 6.10, 
представляет особый интерес, поскольку строки символов широко используются как 
ключи в процессе сортировки. Более того, поскольку строки могут иметь различные 
длины и вообще быть очень длинными, построение, удаление и сравнивание строк 
может потребовать значительных затрат ресурсов, так что следует проявить особую 
осторожность и позаботиться о том, чтобы выбранная реализация не приводил^ к 
излишним и необязательным операциям этого вида. 
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С этой целью применяется такое представление данных, которое состоит из ука- 
зателя (на массив символов), — это стандартное представление строки в стиле язы- 
ка С. Далее, первая строка программы 6.9 изменяется на 

-Ьуресіе^ з-ЬгисЪ { сЬаг *зѣг; } Нет; 

что обеспечивает ее преобразование в интерфейс для строк. Этот указатель поме- 
щается в структуру 8іпісі, поскольку С++ не позволяет перегружать операцию 
орега*ог< для встроенных типов, каковыми являются указатели. Подобного рода си- 
туации не являются чем-то необычным в С++: класс (или $ігис*), который приспо- 
сабливает интерфейс для другого типа данных называется классом-оболочкой. В рас- 
сматриваемом случае мы не требуем слишком многого от класса-оболочки, тем не 
менее, в некоторых случаях возможны более сложные реализации. Вскоре будет рас- 
смотрен еще один пример. 

Программа 6.11 представляет собой реализацию, ориентированную на строковые 
элементы. Перегруженная операция орегаіог< легко реализуется с помощью функ- 
ции сравнения строк из библиотеки С, но реализация функций 8сап (и гапё) представ- 
ляет собой более трудную задачу, поскольку нельзя упускать из виду распределение 
памяти для строк. Программа 6.11 использует метод, который изучался в главе 3 (про- 
грамма 3.17), содержащий буфер в реализации этого типа данных. Другие варианты 
предусматривают динамическое распределение памяти для каждой строки, использо- 
вание реализации класса, подобного классу 8(гіп§ из библиотеки стандартных шаб- 
лонов, либо организацию буфера в клиентской программе. Можно воспользоваться 
любым из этих подходов (с соответствующими интерфейсами) для сортировки строк 
символов, используя любую из реализаций сортировки из рассмотренных выше. 

Мы сталкиваемся с необходимостью подобного выбора управления памятью вся- 
кий раз, когда пытаемся придавать программе модульную структуру. Кто должен нести 
ответственность за управление памятью, соответствующее конкретной реализации 
некоторых типов объектов: клиентская программа, реализация типа данных или си- 
стема? Не существует однозначного и готового ответа на этот вопрос (некоторые 
разработчики языков программирования вообще становятся суеверными, когда этот 
вопрос возникает). Некоторые из современных систем программирования (включая 
конкретные реализации С++) содержат обобщенные механизмы, обеспечивающие 
автоматическое управление памятью. Мы еще раз столкнемся с этой проблемой в 
главе 9, когда приступим к изучению реализации более сложных абстрактных типов 
данных. 

Программа 6. 1 1 представляет собой пример сортировки по указателю , к рассмотре- 
нию которой в обобщенном виде мы сейчас перейдем. Другой простой подход к про- 
блеме сортировки без (непосредственных) перемещений элементов заключается в 
построении индексного массива , причем доступ к ключам элементов осуществляется 
только для того, чтобы выполнить операцию сравнения. Предположим, что сортиру- 
емые элементы находятся в массиве <1аіа[0],...,<1аіа[]Ч-1] и мы не хотим перемещать 
их в силу тех или иных причин (возможно, из-за их огромных размеров). Чтобы по- 
лучить эффект сортировки, используется второй массив , массив а индексов элементов. 
Мы начинаем с инициализации а[і] значениями і для і=0,...,ІЧ-1. Другими словами, 
ш начинаем с того, что а[0] получает значение индекса первого элемента данных, 
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а[1] — второго элемента данных и т.д. Целью сортировки является переупорядоче- 
ние массива индексов таким образом, что а[0] дает индекс элемента данных с наи- 
меньшим значением ключа, а[1] — индекс элемента данных с минимальным значе- 
нием ключа из числа оставшихся и т.д. После этого эффект сортировки достигается 
за счет доступа к ключам через индексы — например, таким способом можно выве- 
сти массив в порядке выполненной сортировки. 


Программа 6.11. Реализация типов данных для строковых элементов 


Эта реализация позволяет выполнять сортировку строк в языке С. Для представления 
данных используется структура, которая содержит указатель на символ (см текст 
программы ), благодаря чему сортировка осуществляется для массива указателей на 
символы, переупорядочивая их таким образом, что строки, на которые они указывают, 
следуют друг за другом в алфавитно-цифровом порядке. Чтобы подробно показать 
процесс управления памятью, мы даем определение буфера памяти фиксированных 
размеров, в который данный модуль помещает символы сортируемых строк; по- 
видимому, динамическое распределение памяти подходит больше. Реализация 
функции гапсі здесь опущена. 

#іпс1исіе СіозЪгеат. Ь> 

#іпс1и<іе <з-Ьсі1іЪ.Ь> 

#іпс1исіе <з1:гіпд.Ъ> 

#іпс1и<іе "ІЪет.Ь" 
зѣаЪіс сЬаг Ьи^ [100000] ; 
зѣа-Ьіс іхгЬ сп'Ь = 0 ; 

ІпЪ орегаЪог< (сопзѣ Іѣет& а, сопз*Ь Ііет& Ь) 

{ геіигп зѣгстр (а. зѣг , Ь.з*Ьг) <0; } 

ѵоісі зЬоѵг(сопзѣ Іѣет& х) 

{ соиѣ « х.зѣг « " } 

іпѣ зсап(Іѣет& х) 

{ іпѣ ^Іад = (сіп » (х.зѣг = &Ьи^[спЪ])) != 0; 

сп’Ь += З’ЬгІеп (х . зЪг) +1 ; 
ге”Ьигп іЕІад; 

} 


Требуется точно определить, что выбранный вид сортировки выполняет упорядо- 
чивание массива индексов, а не простые целые числа. Тип Іпсіех следует определить 
так, чтобы можно было перегрузить операцию орега!ог< следующим образом: 

іпѣ орегаѣог< (сопзѣ Іп<іех& і, сопзѣ Іпсіех& з ) 

{ геЪигп сіа , Ьа[і] < сіаѣа[з]; } 

Если мы получим в свое распоряжение массив объектов типа Ішіех, то любая за- 
действованная функция сортировки так переупорядочит индексы в массиве а, что 
значение а[і] определит число ключей, меньших по значению, чем ключ элемента 
<1а1а[і] (индекс а[і] в отсортированном массиве). (Для простоты в этом обсуждении 
предполагается, что данные суть ключи, а не элементы в полном объеме — этот прин- 
цип можно распространить на более крупные и сложные элементы, внося в опера- 
цию орегаіог< такие изменения, которые позволяют осуществлять доступ к специфи- 
ческим ключам таких элементов, либо воспользоваться функцией-членом класса для 
вычисления такого ключа.) Для определения объектов типа Ішіех используется класс- 
оболочка: 
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зѣгисѣ іпШгаррег 
{ 

іпЪ Нет; 

іп'ЬНгаррег (іп-Ь і = 0) 

{ Нет = і; } 
орег^ѣог іпіО сопзѣ 
{ге-Ьигп і'Ьет; } 

} ; 

іуре <іе^ іпѣНгаррег Ігміех; 


Конструктор в данной структуре зігисі преобразует любое значение типа іпі в 
Ішіех, а операция преобразования типа орегаіог іпі() преобразует любое значение 
Ішіех обратно в іпі, следовательно, объекты типа Іініех можно использовать везде, где 
допускается применение объектов встроенного типа іпі. 

Пример индексации, в рамках которого одни и те же элементы сортируются по 
двум различным ключам, представлен на рис. 6.14. Одна клиентская программа мо- 
жет определить орега*ог< для работы с одним видом ключей, а другая — для исполь- 
зования с другим ключом, при этом оба они могут воспользоваться одной и той же 
программой сортировки, чтобы построить массив индексов, который позволил бы 


получать доступ к элементам в порядке расположения 
их ключей. 

Переупорядочение N различных неотрицательных 
целых чисел, меньших УѴ, в математике называется 
перестановкой: индексная сортировка выполняет пе- 
рестановку. В математике перестановки обычно опре- 
деляются как переупорядочения целых чисел от 1 до 
УѴ; мы же будем употреблять числа от 0 до N- 1, что- 
бы подчеркнуть прямую связь между перестановками 
и массивом индексов в С++. 

Такой поход, предусматривающий использование 
массива индексов вместо реальных элементов, рабо- 
тает в любом языке программирования, который под- 
держивает массивы. Другая возможность заключается 
в использовании указателей; она аналогична только 
что рассмотренной реализации строкового типа дан- 
ных (программа 6.11). Будучи выполненной на масси- 
ве элементов фиксированного размера, сортировка 
по указателям во многом эквивалентна индексной 
сортировке, но при этом адрес массива добавляется к 
каждому индексу. Но сортировка по указателям — это 
более общая форма сортировки, ибо указатели могут 
указывать на что угодно, а элементы, подвергающи- 
еся сортировке, отнюдь не обязательно должны иметь 
фиксированные размеры. Для индексной сортировки 
характерно следующее: если а есть массив указателей 
на ключи, то результатом вызова функции $ог* будет 
переупорядочение указателей таким образом, что пос- 


0 10 9 ѴѴіІзоп 

1 4 2 ЗоЬпзоп 

2 5 1 Зопез 

3 6 0 5тМ 

4 8 4 ѴѴазЫпдІоп 

5 7 8 ТЬотрзоп 

6 2 3 Вгоѵѵп 

7 3 10 Заскзоп 

8 9 6 ѴѴЬіІѳ 

9 0 5 Асіатз 

10 1 7 ВІаск 
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РИСУНОК 6.14. ПРИМЕР 
ИНДЕКСНОЙ СОРТИРОВКИ 

Манипулируя индексами, а не 
самими записями, можно 
выполнять сортировку 
одновременно по нескольким 
ключам. В этом примере данные 
могут быть фамилиями 
студентов и их степенями, 
вторая колонка представляет 
собой результат индексной 
сортировки по именам, а третья 
колонка представляет собой 
результат индексной сортировки 
по степени. Например, Шізоп — 
фамилия, идущая по алфавиту 
последней, и ей соответствует 
десятая степень, в то время как 
фамилия Айать идет первой в 
алфавитном порядке, а ей 
соответствует шестая степень. 
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ледовательный доступ к ним означает доступ к ключам в соответствующем порядке. 
Мы выполняем операции сравнения, следуя указателям; мы реализуем операции об- 
мена за счет перемены местами указателей. 

Функция ^50^і из стандартной библиотеки С представляет собой сортировку по 
указателям (см. программу 3.17), которая принимает функцию сравнения в качестве 
аргумента (но не берет за основу перегруженную операцию орегаіог<, что делалось 
ранее). У этой функции четыре аргумента: массив, количество сортируемых элемен- 
тов, размеры элементов и указатель на функцию, которая выполняет сравнение двух 
элементов, причем для этого ей потребуется передать указатели на эти элементы. 
Например, если Пет есть сЬаг*, то приведенный ниже программный код выполняет 
сортировку строк в соответствие с принятыми соглашениями: 

іпЪ сотраге (ѵоісі *і, ѵоій *з) 

{ ге-Ьигп зѣгстр (* (Іѣвт *)і, *(І‘Ьвт *)}); } 

ѵоісі зогѣ (Іѣет а [ ] , іпѣ 1, іпѣ г) 

{ дзог^а, г*"1+1 , зігѳоТ ( Нет) , сотраге); } 


Положенный в основу этого кода алгоритм в интерфейсе не определен, хотя бы- 
страя сортировка (см. главу 7) находит широкое применение. В главе 7 мы рассмот- 
рим многие причины, почему это так. Благодаря материалу данной главы, а также 
глав с 7 по 11, станет понятно, почему в условиях некоторых специальных приложе- 
ний целесообразно применение ряда других методов сортировки. Кроме того будут 
исследоваться подходы к ускорению вычислений в тех случаях, когда время выпол- 
нения сортировки является критическим фактором для приложения. 

Программа 6.12. Интерфейс типа данных для элементов типа запись 


В записях имеются два ключа: ключ строкового типа (например, фамилия) в первом 
поле и целое число (например, степень) — во втором. Будем считать, что эти записи 
слишком большие, чтобы их копировать, поэтому Нет определяется как структура 
зігисі, содержащая указатель на запись. 


з'Ьгис'Ь гвсогсі { сЬаг пате [30]; іпѣ пит; }; 

ЪуреЦѳ^ з'Ьгис'Ь { гесогй *г; } Іѣѳт; 

іп*Ь орега“Ьог< (сопзі. І*Ьет&, сопзѣ І*Ьет&) ; 

ѵоісі гапсі (Пет&) ; 

ѵоісі зЬоѵ(сопз < Ь Іѣет&) ; 

іпі. зсап (Іівт&) ; 


Программа 6.13. Реализация типа данных записей 

Приведенные ниже реализации функций зсап и зНоѵѵ для записей работают в стиле 
реализации строкового типа данных из программы 6.11, распределяя и работая с 
памятью, в которой хранятся строки. Реализация операции орегаіоК находится в 
отдельном файле, что дает возможность изменять представления и ключи сортировки 
без затрагивания основного кода. 

з'Ьаѣіс гесогсі сіаѣа [тахИ] ; 
з'Ьа'Ьіс іпѣ спѣ = 0; 
ѵоісі 8Ііоѵ(соп8ѣ Ііет& х) 

{ соиѣ « х . г->пате « " " « х.г->пит « ѳпсіі; } 
іп*Ь зсап(І‘Ьет& х) 

{ 

х.г = Зсіаѣа [сп^Н-] ; 

ге^игп (сіп » х.г->пате » х.г->пшп) != 0; 

> 
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В обычных приложениях указатели используются для доступа к записям, которые мо- 
гут иметь несколько ключей. Например, записи, содержащие фамилии студентов со сте- 
пенями или фамилии людей вместе с возрастом могут определяться следующим образом: 

зѣгисѣ гесогсі { сЬаг[30] пате; іпѣ пит; } 

Вполне может потребоваться выполнить их сортировку, используя любое из этих 
полей в качестве ключа. Программы 6.12 и 6.13 могут служить примерами интерфейса 
сортировки по указателям и реализации, которая позволила бы достигнуть этого. Для 
различных приложений сортировки используются массив указателей на записи и раз- 
личные реализации операции орега1ог<. Например, если откомпилировать програм- 
му 6.13 вместе с файлом, содержащим программный код 

#±пс1шіе "Ііет.Ь" 

іпѣ орегаіо^ (сопзѣ Іѣет &а, сопзѣ Іѣет &Ь) 

{ геЪшгп а.г->пит < Ь.г->пит); } 

то получим тип данных для элементов, для которых любая реализация функции §оі1 
выполнит сортировку по указателям на целочисленном поле; а если откомпилировать 
программу 6.13 вместе с файлом, содержащим программный код 

#±пс1иде "Іѣет.Ь" 

іпсішіе <з1:гіпд.Ь> 

іпѣ орега-Ьог< (сопзѣ І'Ьет &а, сопзѣ Іѣет &Ь) 

{ ге'Ьигп зѣгстр (а.г->пате, Ь.г->пате) <0; } 

то получим тип данных для элемента, для которого любая реализация функции 80 гі 
выполнит сортировку по указателям на строковом поле. 

Основная причина использования индексов или указателей состоит в том, чтобы 
не затрагивать данных, подвергаемых сортировке. Можно "сортировать" файл даже 
в том случае, когда к нему разрешен доступ "только для чтения". Более того, исполь- 
зуя несколько индексных массивов или массивов указателей, можно сортировать один 
и тот же файл по многим ключам (см. рис. 6.14). Подобного рода гибкость, позволя- 
ющая манипулировать данными, сохраняя их неизменными, полезна во многих при- 
ложениях. 

Другая причина, побуждающая манипулировать индексами, заключается в том, что 
таким путем можно избежать расходов на перемещения записей целиком. Достига- 
ется значительная экономия, если записи большие (а ключи маленькие), поскольку 
для выполнения операции сравнения требуется доступ только к небольшой части за- 
писи, а большая часть записи в процессе выполнения сортировки не затрагивается. 
При непрямом подходе стоимость операции обмена примерно равна стоимости опе- 
рации сравнения в общем случае, когда сравниваются записи произвольной длины (за 
счет расходов на дополнительное пространство памяти, выделяемое под индексы или 
указатели). В самом деле, если ключи длинные, то операции обмена могут быть даже 
не такими дорогостоящими, как операции сравнения. При получении оценки време- 
ни выполнения сортировки целочисленных файлов тем или иным методом, часто 
предполагается, что стоимости операций сравнения и обмена приблизительно одно- 
го порядка. Выводы, полученные на основе такого предположения, можно, по-види- 
мому, отнести к широкому классу приложений в тех случаях, когда применяется сор- 
тировка по указателям или индексная сортировка. 
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Для многих приложений никогда не возни- 
кает необходимость физического перемещения 
данных в соответствии с порядком размещения 
соответствующих индексов, и можно получить 
к ним доступ в нужном порядке, используя ин- 
дексные массивы. Если в силу некоторых при- 
чин такой подход не устраивает, возникнет не- 
обходимость решить обычную проблему из 
области классического программирования: ка- 
ким образом сделать так, чтобы записи файла, 
подвергаемого индексной сортировке, заняли 
свои места в соответствующем порядке? Про- 
граммный код 

^ог (і=0; і < И; і++) сіа'ЬазогІесЦі] = 

<іа1а[а[і] ] ; 

тривиален, однако требует дополнительного 
пространства памяти, достаточного для разме- 
щения еще одной копии массива. Что делать в 
том случае, когда для второй копии файла в 
памяти не хватает места? Ведь нельзя же про- 
сто записать йаіа[і] = йа!а[а[і]], ибо в этом 
случае предыдущее значение <1аіа[і] окажется 
затертым, и скорее всего, преждевременно. 

На рис. 6.15 показан способ решения этой 
проблемы, все еще обходясь одним проходом 
по файлу. Чтобы переместить первый элемент 
на положенное ему место, мы переносим эле- 
мент, который находится на его месте, на по- 
ложенное ему место и т.д. Продолжая подоб- 
ные рассуждения, мы в конце концов находим 
элемент, который требуется передвинуть на 
первую позицию; на этом этапе в окончатель- 
ные позиции оказывается сдвинутым некото- 
рый цикл элементов. Далее, мы переходим ко 
второму элементу и выполняем те же операции 
для его цикла и так далее (любые элементы, с 


О 1 2 3 4 5 6 7 8 9 10 11 12 13 14 
А 50В Т I ЫОЕХАМРІ.Е 
О 10 8 14 7 5 13 11 6 2 12 3 1 4 9 



А А Е 
А А Е 
А А Е 
А А Е 
А А Е 
Д А ЕО 
А А Е Е 
А А Е Е 
А А ЕЕ 


О 

С 


0 N 

1_ N 

1 N 

йОі 

1 М N 

і М N 

Г М N 


Р 3 

Р 3 О 

Р 5 Т 
Р 5 Т 

рОз т 

р в 3 т 


I. М N ТОУ Р 


я 5 
В 8 


I) 1_ М N О Р В 3 


ТО 

Т X 
Т X 


ААЕЕС I 1.МЫОРВ5ТХ 


РИСУНОК 6.15. ОБМЕННАЯ СОРТИРОВКА 

Чтобы выполнить обменное упорядочение 
массива (упорядочение на месте), мы 
перемещаемся по нему слева направо , в 
циклах передвигая элементы, которые 
требуется переместить. В 
рассматриваемом примере имеются 
четыре цикла: первый и последний суть 
вырожденные одноэлементные циклы. 
Второй цикл начинается с позиции 1. 
Элемент 8 переходит во временную 
переменную, оставляя в позиции 1 пустое 
место. Перемещение второго А приводит 
к тому, что в позиции 10 остается 
пустое место. Это пустое место 
заполняется элементом Р, который, в 
свою очередь, оставляет пустое место в 
позиции 12. Это пустое место должно 
быть заполнено элементом в позиции 1, 
следовательно , запомненный элемент 8 
переходит в это пустое место, тем 
самым завершая цикл 1 10 12, который 
устанавливает эти элементы в 
окончательные позиции. Аналогично 
выполняется цикл 2 8 6 13 4 7 11 3 14 9, 
который и завершает сортировку. 


которыми мы сталкиваемся и которые нахо- 
дятся в своих окончательных позициях (а[і] = і), попадают в цикл длиной 1 и не пе- 
ремещаются). 

В частности, для каждого значения і сохраняется значение ёаіа[і] и инициализи- 
руется индексная переменная к значением і. Далее мы обращаем свое внимание к 
образовавшемуся пустому месту в позиции і и ищем элемент, который должен запол- 
нить это место. Таким элементом является сіа1а[а[к]] — другими словами, операция 
присваивания йаіа[к] = <Ыа[а[к]] перемещает это пустое место в а[к]. Теперь пус- 
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тое место возникает в позиции <1а<;а[а[к]], таким образом, к устанавливается в а[к]. 
Повторяя эти действия, мы в конце концов оказываемся в ситуации, когда пустое 
место должно быть заполнено значением ёаіа[і], которое было предварительно со- 
хранено. Когда мы помещаем элемент в какую-либо позицию, мы вносим соответ- 
ствующие изменения в массив а. Для любого элемента, занявшего свою позицию, а[к] 
равен і, и только что написанный процесс сводится к отсутствию операции (по-ор). 
Перемещаясь по массиву и начиная новый цикл всякий раз, когда встречается эле- 
мент, который еще ни разу не перемещался, мы перемещаем каждый элемент самое 
большее один раз. Программа 6.14 представляет реализацию рассмотренного процесса. 

Программа 6.14. Обменная сортировка 

Массив сІа1а[0],...,сіаіа[Ы-1] должен быть упорядочен на месте в соответствии с 
массивом индексов а[0],...,а[И-1]. Любой элемент, для которого а[і] == і, занимает 
свое окончательное место и его больше не следует трогать. В противном случае 
следует сохранить сІа1а[і] в ѵ и работать в цикле а[і], а[а[і]], а[а[а[і]]] и т.д. до тех 
пор, пока индекс і не встретится опять. Мы повторяем этот процесс для следующего 
элемента, который не на месте, и продолжаем в том же духе, пока не приведем в 
порядок весь файл, причем каждая запись будет перемещаться только один раз. 

■Ьешріа-Ье <с1азз Іѣет> 

Ѵоіё іпзіѣи (ІЪет <іаѣа[], Іпсіех а[], іпЪ Ы) 

{ ^ог (іпѣ і = 0; і < N ; і++) 

{ Нет ѵ = <іа*;а[і] ; 
іпЪ з , к ; 

*ог (к = і; а [к] != і; к = а[}], а[з] = з) 

{ з = к; <іаЪа[к] = ёаѣа [а [к] ] ; } 
сіаі;а[к] = ѵ; а [к] = к; 

} 

} 


Этот процесс называется перестановкой по месту (іп зіш) или обменное упорядочение 
файла. Отметим еще раз: несмотря на то что сам по себе алгоритм весьма интересен, 
тем не менее, во многих приложениях в нем нет необходимости, ибо вполне доста- 
точно непрямого доступа к элементам. Кроме того, если записи несопоставимо ве- 
лики по отношению к их номерам, наиболее эффективным может оказаться вариант 
их упорядочения при помощи обыкновенной сортировки выбором (см. лемму 6.5). 

Непрямая сортировка требует дополнительного пространства памяти для размеще- 
ния массива индексов или массива указателей и дополнительного времени для выпол- 
нения операций непрямого сравнения. Во многих приложениях эти затраты являются 
вполне оправданной ценой за гибкость и возможность вообще не затрагивать запи- 
си. В случае файлов, состоящих из больших записей, мы практически всегда будем 
пользоваться непрямой сортировкой, а во многих приложениях часто происходит так, 
что вообще нет необходимости перемещать данные. В рамках этой книги обычно 
применяется прямой доступ к данным. Однако в некоторых приложениях все-таки 
придется воспользоваться массивами индексов и указателей во избежание перемеще- 
ния данных; именно в силу этих причин мы и остановились здесь на этой теме. 
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Упражнения 

6.57. Представить реализацию типа данных для элементов, когда элементами яв- 
ляются записи, а не указатели на записи. Такая организация данных может ока- 
заться предпочтительной для применения программ 6.12 и 6.13 к небольшим запи- 
сям. (Не забывайте, что язык С++ поддерживает операцию присваивания 
структур.) 

о 6.58. Показать, как можно использовать функцию ^ 80 Гі для решения проблем сор- 
тировки, на которые ориентированы программы 6.12 и 6.13. 

> 6.59. Построить массив индексов, который получается при индексной сортиров- 
ке ключей ЕА8Ѵ01ІЕ8ТІОІЧ. 

> 6.60. Построить последовательность перемещений данных, необходимых для пе- 
рестановки ключей ЕА8Ѵ(ЗІІЕ8ТІО]Чна месте после выполнения индек- 
сной сортировки (см. упражнение 6.59). 

6.61. Опишите перестановку размера N (набор значений для массива а), в кото- 
рой условие а[і] != і в процессе работы программы 6.14 выполняется максималь- 
ное число раз. 

6.62. Доказать, что в процессе перемещения ключей и появления в программе 6.14 
пустых мест мы обязательно вернемся к ключу, с которого начинали. 

6.63. Реализовать программу, аналогичную программе 6.14, с сортировкой по ука- 
зателям в предположении, что указатели указывают на массив из N записей типа 

Нет. 

6.9. Сортировка связных списков 

Как стало известно из главыЗ, массивы и связные списки представляют собой два 
базовых способа структурирования данных, поэтому рассмотрим реализацию сорти- 
ровки вставками связных списков как пример обработки списков, о которой шла речь 
в разделе 3.4 (программа 3.11). Все программные реализации сортировок, рассмот- 
ренные к этому моменту, предполагают, что сортируемые данные представлены в 
виде массивов, в связи с чем они не могут быть использованы непосредственно, если 
мы работаем в рамках системы, которая использует связные списки для организации 
данных. В некоторых случаях могут оказаться полезными специальные алгоритмы , но 
только тогда, когда они по существу выполняют последовательную обработку данных, 
которую можно эффективно поддерживать для связных списков. 

Программа 6.15. Определение интерфейса для типа связного списка 

Данный интерфейс для связных списков может быть сопоставлен с интерфейсом для 
массивов, представленным в программе 6.7. Функция гапсіотіізі строит список 
случайно распределенных элементов с одновременным выделением для них памяти. 
Функция 8ІЮЖІІ8І выполняет печать ключей из этого списка. Программы сортировки 
используют перегруженную операцию орегаіоК для сравнения и манипулирования 
указателями с целью упорядочения элементов. Представление данных в узлах 
реализуется обычным способом (см. главу 3) и включает конструктор узлов, который 
заполняет каждый новый узел заданными значениями и наделяет фиктивной связью. 

зѣгисЬ посіе 

{ І-Ьет іѣет; посіе* пех-Ь; 
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посІе(И:ет х) 

{ Нет = х; пехі = 0; } 

} ; 

■Ьуреде^ посіе *1іпк ; 

Ііпк гапсШа! (іпі) ; 

Ііпк зсапіізі (іп1&) ; 
ѵоісі зЬоѵгіізі (Ііпк) ; 

Ііпк зог-Ыізі (Ііпк) ; 


Программа 6.15 задает интерфейс типа данных 1іпке(1-1і§1: (связный список), подоб- 
ный используемому в программе 6.7. В условиях программы 6.15 драйвер, соответ- 
ствующий программе 6.6, умещается в одной строке: 

таіп(іп1 агдс, сЬаг *агдѵ[]) 

{зЬоѵгіізі (зог-Ыіз! (зсапіізі: (аіоі (агдѵ[1] ) ) ) ) ; } 

Большая часть работы (включая и распределение памяти) ложится на реализации 
связного списка и функции 80 г(. Так же как и в случае драйвера для массива, этот 
список должен инициализироваться (из стандартного ввода либо случайными значе- 
ниями), необходимо уметь отобразить его содержимое и, разумеется, отсортировать 
его. Как обычно, в качестве типа данных сортируемых элементов используется Иеш, 
что предпринималось в разделе 6.7. Программный код, реализующий интерфейс по- 
добного рода, является стандартным для связных списков и аналогичен коду, кото- 
рый подробно исследовался в главе 3; ниже приводится соответствующее упражнение. 

Рассматриваемый интерфейс — это низкоуровневый интерфейс, который не де- 
лает различий между связью (указатель на узел) и связным списком (указатель, зна- 
чение которого есть 0, или указатель на узел, содержащий указатель на список). С 
другой стороны, для использования в списках и реализациях можно сделать выбор в 
пользу абстрактного типа данных первого класса, который в точности определяет все 
соглашения, касающиеся фиктивного узла, и т.д. Выбор в пользу низкого уровня, 
которому отдается предпочтение в настоящий момент, позволяет сосредоточиться на 
манипуляциях со связями, которые характеризуют сами алгоритмы и структуры дан- 
ных, являющиеся предметом изучения настоящей книги. 

Существует фундаментальное правило, регламентирующее работу со структурами 
связных списков, которое критично для многих приложений, но не всегда четко про- 
сматривается в наших программных кодах. В более сложной среде может иметь ме- 
сто случай, когда указатели на узлы списка, с которыми мы работаем, определяются 
другими частями прикладной системы (т.е., они содержатся в мультисписках). Воз- 
можность того, что ссылки на узлы будут осуществляться через указатели, управле- 
ние которыми реализуется за пределами сортировки, означает, что наши программы 
должны менять только связи в узлах и не должны менять ключей или какой-либо другой 
информации. Например, если требуется выполнить операцию обмена, то на первый 
взгляд кажется, что проще всего совершить обмен значениями элементов (что мы, 
собственно говоря, и делали во время сортировки массивов). Но в таком случае лю- 
бая ссылка на любой из этих узлов с использованием какой-либо другой связи обна- 
ружит, что значение изменилось, и результат ссылки не даст ожидаемого эффекта. 
Необходимо, чтобы сами связи изменились таким образом, чтобы узлы появились в 
порядке, заданном сортировкой, когда список просматривается через связи, к кото- 
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рым имеем доступ мы, но при этом сохра- 
нялся прежний порядок, если доступ произ- 
водится по любым другим связям. При этом 
существенно усложняется реализации, одна- 
ко обычно это является необходимым усло- 
вием. 

Не особенно сложно приспособить сорти- 
ровку вставками, выбором и пузырьковую 
сортировку для работы со связными списка- 
ми, но в каждом конкретном случае возни- 
кают занятные проблемы. Сортировка выбо- 
ром достаточно проста: имеется входной 
список (в котором в исходном положении 
хранятся данные) и выходной список (в ко- 
тором фиксируются результаты сортировки); 
входной список просматривается с целью об- 
наружения максимального элемента, кото- 
рый затем удаляется из списка и помещает- 
ся в начало выходного списка (см. рис. 6.16). 
Реализация этой операции представляет со- 
бой одну из простейших манипуляций над 
связными списками и является полезным ме- 
тодом сортировки коротких списков. Реали- 
зация показана в программе 6.16. Другие ме- 
тоды сортировки оставляются в качестве 
упражнений для самостоятельной проработ- 
ки. 

Программа 6.16. Сортировка выбором связного 
списка 



РИСУНОК 6.16. СОРТИРОВКА ВЫБОРОМ 
СВЯЗНОГО СПИСКА 

На этой диаграмме показан один шаг 
сортировки выбором связного списка . Мы 
поддерживаем входной список с указателем 
Н - >пехі и выходной список с указателем оиі 
(вверху). Входной список просматриёается с 
таким расчетом , чтобы тах показывал на 
узел, предшествующий (а I указывал на) узлу, 
содержащему максимальный элемент. 
Таковыми являются указатели, которые 
необходимы для того, чтобы исключить I из 
входного списка (уменьшив его длину на 1) и 
поместить его в начало выходного списка 
(увеличивая его длину на 1), сохраняя в 
выходном списке заданный порядок (внизу). 

С течением процесса, в конечном итоге, 
исчерпывается весь входной список, а в 
выходном списке элементы размещаются в 
заданном порядке. 


Сортировка выбором связного списка достаточно проста, но несколько отличается от 
сортировки массива тем же методом, поскольку размещение элемента в начале списка 
— более простая операция. Поддерживаются входной список (указатель Н->пех1) и 
выходной список (указатель оиі). Когда входной список не пуст, он просматривается 
с целью нахождения максимального элемента, который затем удаляется из входного 
и помещается в начало выходного списка. Реализация использует вспомогательную 
программу Ііпсітах, которая возвращает связь узла, связь которого указывает на 
максимальный элемент в списке (см. упражнение 3.34). 

Ііпк Ііз'ЬзеІесі.іоп (Ііпк Ь) 

{ посіе сІшпту(О) ; Ііпк Ьеасі = &<іиішпу, оиѣ = 0; 

Ьеагі^пех-Ь = Ь ; 

ѵЛііІе (Ьеа<і->пехѣ != 0) 

{ Ііпк шах = ^іпсітах (Ъеасі) , Ь = тах->пех-Ь; 
тах->пех-Ь = Ъ->пехЪ; 
ѣ->пех-Ь = ои-Ь; оиѣ = Ъ; 

} 

геѣигп оиѣ; 


} 




Часть 3 . Сортировка 


В некоторых ситуациях, возникающих во время обработки списков, вообще нет 
необходимости в явной реализации сортировки. Например, решено всегда содержать 
список в определенном порядке и включать новые узлы в список аналогично тому, 
как это делается при сортировке вставками. Такой подход требует незначительных 
дополнительных затрат, если вставки производятся сравнительно редко, либо если 
список имеет небольшие размеры, а также в ряде других случаев. Например, по той 
или иной причине понадобится выполнить просмотр всего списка перед тем, как вста- 
вить в него новые узлы (возможно, чтобы убедиться в том, что в списке нет дубли- 
катов). В главе 14 рассматривается алгоритм, который использует упорядоченные 
связные списки, а в главах 12 и 14 исследуются многочисленные структуры данных, 
эффективность которых повышается благодаря наличию порядка. 

Упражнения 

> 6.64. Показать содержимое входного и выходного списков при условии, что сор- 
тировка ключей А 8 О К Т I N СЕХАМРЬЕ выполняется с использованием 
программы 6.15. 

6.65. Разработать реализацию интерфейса связного списка, заданного в програм- 
ме 6.15. 

6.66. Написать клиентскую программу, представляющую собой драйвер, измеря- 
ющий эффективность сортировки связных списков (см. упражнение 6.9). 

• 6.67. Разработать АТО первого класса для связных списков (см. раздел 4.8), кото- 
рый включает конструктор для инициализации случайными значениями, конструк- 
тор для инициализации через перегруженную операцию орегаіог«, вывод данных 
через перегруженную операцию орега!ог>>, деструктор, конструктор копий и фун- 
кцию-член 80ГІ. Воспользоваться сортировкой выбором для реализации функции 
80ГІ, при этом Пікітах рассматривается как приватная функция-член. 

6.68. Разработать программную реализацию пузырьковой сортировки для связных 
списков. Предостережение'. Обмен местами двух соседних элементов в связном 
списке — это более сложная операция, чем может показаться на первый взгляд. 

> 6.69. Включить в программу 3.11 модуль сортировки вставками таким образом, 
чтобы он обладал такими же функциональными возможностями, что и програм- 
ма 6.16. 

6.70. Вариант сортировки вставками, использованный в программе 3.11, выпол- 
няет сортировку связных списков значительно медленнее, чем сортировку масси- 
вов на некоторых входных файлах. Дайте описание одного из таких файлов и 
объясните, в чем заключается проблема. 

• 6.71. Построить программную реализацию варианта сортировки методом Шелла, 
ориентированного на связные списки, который не требует существенно больше- 
го объема памяти и времени для сортировки случайно упорядоченного файла, не- 
жели вариант, предназначенный для сортировки массивов. Совет : воспользоваться 
пузырьковой сортировкой. 

•• 6.72. Реализовать АТО для последовательностей , которые позволили бы использо- 
вать одну и ту же клиентскую программу для отладки программных реализаций 
сортировки как связных списков, так и массивов. Иначе говоря, клиентские про- 
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граммы могут генерировать последовательности из N элементов (в результате ге- 
нерации случайно распределенных совокупностей элементов либо стандартного 
ввода), выполнять сортировку последовательности и отображать ее содержимое. 
Например, АТБ в файле 8Е(3.схх должен работать со следующим программным 
кодом: 

#іпс1ис1е "Іѣет.Ь" 

#іпс1жіе "ЗЕО.схх" 
таіп(±пѣ агдс, сЬаг *агдѵ[]) 

{ іпЪ N » аѣоі (агдѵ[1] , вѵ = аіоі (агдѵ [2] ) ; 

ІГ (з\г) 5Ефгапсі(Н) ; візв 5Е0зсап(); 

ЗЕОзогі ( ) ; 

ЗЕОзЬоѵО ; 

> 

Получить две реализации: одну, использующую представление в виде массива, и 
другую, использующую представление в виде связного списка. Воспользоваться 
сортировкой выбором. 

•• 6.73. Расширить реализацию из упражнения 6.72 так, чтобы она стала АТЭ перво- 
го класса. Совет : решение ищите в библиотеке стандартных шаблонов. 

6.10. Метод распределяющего подсчета 

Повышение эффективности некоторых алгоритмов сортировки достигается за счет 
использования специфических свойств ключей. Например, рассмотрим такую задачу: 
требуется выполнить сортировку файла из N элементов, ключи которых принимают 
различные значения в диапазоне от 0 до N - 1. Мы можем решить эту проблему сразу, 
используя с этой целью массив Ь, посредством оператора: 

ііог (і = 0; і<Л; і++) Ь[кѳу(а[і])] = а[і]; 

То есть, мы выполняем сортировку, используя ключи как индексы , а не как абст- 
рактные элементы, которые сравниваются между собой. В этом разделе мы ознако- 
мимся с элементарным методом, который использует ключевую индексацию для по- 
вышения эффективности сортировки в случае, когда ключами служат целые числа, 
принимающие значения в ограниченном диапазоне. 

Если все ключи равны 0, то сортировка тривиальна; теперь предположим, что два 
различных ключа принимают значения 0 и 1. Такого рода проблема сортировки мо- 
жет возникнуть, когда требуется выделить элементы файла, удовлетворяющие неко- 
торым (возможно, достаточно сложным) проверочным критериям: допустим, мы счи- 
таем, что значение 0 ключа означает, что элемент "принят”, а значение 1 — что 
элемент "отвергнут". Один из способов сортировки состоит в том, что сначала подсчи- 
тывается число 0, затем выполняется второй подход по входному массиву а с целью 
размещения его элементов в массиве Ь, при этом предусматривается массив, состо- 
ящий из двух счетчиков, который используется следующим образом. Мы начинаем с 
того, что помещаем 0 в сп1[0], а количество нулевых ключей в файле — в сп*[1], с 
целью показать, что в рассматриваемом файле не существуют ключи, принимающие 
значения меньше 0, но имеется спі[1] ключей, значения которых меньше 1. Разуме- 
ется, мы можем заполнить массив Ь следующим образом: в начало массива записы- 
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ваются 0 (начиная с Ъ[[сп*[0]] или Ь[0]) и 1, на- 
чиная с Ь[сп*[1]]. Таким образом, программ- 
ный код 

Нот (і = 0; і<И; і++) 

Ь [спѣ [а [і] 3 ++] = а[і]; 

переносит элементы из а в Ь. Опять-таки мы 
получаем быструю сортировку за счет использо- 
вания ключей в качестве индексов (для выбора 
между сп*[0] и сп*[1]). 

Такой подход очень просто обобщается. Бо- 
лее реалистичную задачу в том же духе можно 
сформулировать следующим образом: выпол- 
нить сортировку файла, состоящего из N эле- 
ментов, ключи которого принимают целые зна- 
чения в диапазоне от 0 до М — 1. Расширим 
базовый метод, описанный в предыдущем пара- 
графе, до алгоритма, получившего название рас- 
пределяющего подсчета , который эффективно 
решает эту задачу для не слишком больших М. 
Точно так же как и в случае двух ключей, идея 
состоит в том, чтобы подсчитать количество 
ключей с каждым конкретным значением, а за- 
тем использовать счетчики при перемещении в 
соответствующие позиции во время второго про- 
хода по сортируемому файлу. Сначала подсчи- 
тывается число ключей для каждого значения, 
затем вычисляются частичные суммы, чтобы 
знать, сколько имеется ключей, меньших или 
равных каждому такому значению. Далее снова, 
аналогично случаю двух значений ключа, ис- 
пользуем эти числа как индексы при распреде- 
лении ключей. Для каждого ключа показания 
связанного с ним счетчика рассматриваются в 
качестве индекса, указывающего на конец бло- 
ка ключей, принимающих одно и то же значе- 
ние. Этот индекс используется при размещении 
ключей в массиве Ь, после чего производится 
переход к следующему элементу. Описанный 
процесс иллюстрируется на рис. 6.17. Реализация 
находится в программе 6.17. 
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РИСУНОК 6.17. СОРТИРОВКА МЕТОДОМ 
РАСПРЕДЕЛЯЮЩЕГО ПОДСЧЕТА 

Сначала для каждого значения 
определяется , сколько имеется в файле 
ключей, принимающих это конкретное 
значение: в рассматриваемом примере 
имеется шесть ключей, принимающих 
значение 0, семь значений 1, два 
значения 2 и три значения 3. Затем 
подсчитываются частичные суммы 
ключей, принимающих значения , 
меньшие значений конкретных ключей: 0 
ключей меньше 0, 6 ключей меньше 1, 10 
ключей меньше 2 и 12 ключей меньше 3 
(таблица в середине). Затем, помещая 
ключи в соответствующие позиции, 
частичные суммы рассматриваются в 
качестве индексов: 0 в начале файла 
помещается в ячейку 0; далее 
увеличивается на единицу значение 
указателя, соответствующего 0; в эту 
позицию пойдет следующий 0. Затем 3 
из следующей позиции в файле слева 
помещается в ячейку 12 (поскольку в 
файле имеются 12 ключей со значением, 
меньшим 3), причем соответствующий 
счетчик увеличивается на 1 и т.д. 
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Программа 6.17. Распределяющий подсчет 

Во время выполнения первого цикла Гог счетчики инициализируются значениями 0; во 
втором цикле Гог значение второго счетчика устанавливается равным количеству 
ключей 0, значение третьего счетчика — количеству ключей, равных 1 и т.д. В третьем 
цикле Гог все эти числа складываются, в результате чего получаем количество ключей, 
меньших или равных ключу, соответствующему очередному счетчику. Эти числа теперь 
представляют собой индексы концов тех частей файлов, которым эти ключи 
принадлежат. Четвертый цикл Гог перемещает ключи во вспомогательный массив Ь в 
соответствии со значениями этих индексов, а на завершающем цикле отсортированный 
файл возвращается в файл а. Чтобы этот программный код работал, необходимо, 
чтобы ключи были целыми значениями, не превышающими М, хотя его можно легко 
модифицировать таким образом, чтобы ключи можно было извлекать из элементов с 
более сложной структурой (см. упражнение 6.77). 

ѵоісі сіізісоипі (іпі а[], іпі 1, іпі г) 

{ іпі і , 3 , спі [М] ; 


зіаііс 
*ог (3 

іпі Ь 

= 0; 

[тахЫ] ; 

І < М; э++) 

спі [ з ] = 0 ; 

іог 

(і 

= 1; 

9 

1 

<= г; і++) 

спі [а [і] +1] ++; 

іог 

(3 

= 1; 

• 

3 

< М; з++) 

спі [Л += спі [ 3-1] ; 

іог 

(і 

= 1; 

і 

<= г; і++) 

Ъ [спі [а [і] ] ++] = а[і] ; 

ІОГ 

(і 

= 1; 

• 

л. 

<= г; і++) 

а [і] = Ь [ і— 1 ] ; 


} 


Лемма 6.12. Метод распределяющего подсчета представляет собой сортировку с линей- 
но зависимым временем выполнения при условии , что диапазон изменения значений клю- 
чей пропорционален размеру файла . 

Каждый элемент перемещается дважды, один раз в процессе распределения и один 
раз при возвращении в исходный файл; ссылки на ключи также производятся 
дважды, один раз при подсчете, другой раз при выполнении распределения. Два 
других цикла Гог в алгоритме используются при накоплении показаний счетчиков 
и фактически мало влияют на время выполнения сортировки до тех пор, пока ко- 
личество подсчетов существенно не превосходит размер файла. 

Если сортировке подвергается файл крупных размеров, то вспомогательный файл 
Ь может привести к проблемам в плане распределения памяти. Программу 6.17 можно 
изменить так, чтобы она совершала сортировку на месте (т.е., без необходимости 
построения вспомогательного файла), используя методы, подобные применяемым в 
программе 6.14. Эта операция тесно связана с базовыми методами, которые будут 
обсуждаться в главах 7 и 10, так что отложим ее изучение до упражнений 12.16 и 12.17 
из раздела 12.3. Как станет ясно из главы 12, подобная экономия пространства памя- 
ти достигается ценой нарушения устойчивости алгоритма, из-за чего область приме- 
нения этого алгоритма существенно сужается, поскольку приложения, использующие 
большое число дубликатов ключей, частей прибегают к помощи других связанных с 
ними ключей, относительный порядок которых должен быть сохранен. Исключитель- 
но важный пример такого рода исследуется в главе 10. 
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Упражнения 

о 6.74. Дать пример специализированной версии метода распределяющего подсче- 
та для сортировки файлов, элементы которых могут принимать только одно из 
трех значений (а, Ь или с). 

6.75. Предположим, что используется сортировка вставками для упорядочения слу- 
чайно распределенного файла, элементы которого принимают одно из трех воз- 
можных значений. Какой зависимости подчиняется время выполнения сортиров- 
ки: линейной, квадратичной или некоторой промежуточной зависимости? 

> 6.76. Показать, как файл АВ КАСАБАВ КА сортируется при помощи мето- 
да распределяющего подсчета. 

6.77. Реализовать сортировку методом распределяющего подсчета элементов, ко- 
торые представляют собой потенциально большие записи с целочисленными клю- 
чами, принимающими значения в небольшом диапазоне. 

6.78. Реализовать сортировку методом распределяющего подсчета в виде сортиров- 
ки по указателям. 


Быстрая 

сортировка 


Т емой настоящей главы является алгоритм сортировки, 
который, по-видимому, используется гораздо чаще 
любого другого, а именно — алгоритму быстрой сортиров- 
ки (циіскзогі). Базовый алгоритм этого вида сортировки 
был открыт в 1960 г. Хоаром (С.А.К.Ноаге), и с той поры 
многие специалисты посчитали своим долгом доскональ- 
но изучить его (см. раздел ссылок). Быстрая сортировка 
стала популярной прежде всего потому, что ее нетрудно 
реализовать, она хорошо работает на различных видах 
входных данных и во многих случаях требует меньше зат- 
рат ресурсов по сравнению с другими методами сортиров- 
ки. 

Алгоритм быстрой сортировки обладает и другими 
весьма привлекательными особенностями: он принадле- 
жит к категории обменных (іп-ріасе) сортировок (т.е., 
требует всего лишь небольшого вспомогательного стека), 
на выполнение сортировки N элементов в среднем затра- 
чивается время, пропорциональное N 1о§ N и для него ха- 
рактерны исключительно короткие внутренний циклы. 
Его недостатком является то, что он неустойчив, для его 
выполнения в наихудшем случае требуется N 1 операций, 
он хрупок в том смысле, что даже простая ошибка в реа- 
лизации может пройти незамеченной и вызвать ошибки в 
работе алгоритма на некоторых видах файлов. 

Работа быстрой сортировки проста для понимания. 
Алгоритм был подвергнут тщательному математическому 
анализу, и можно дать достаточно точную оценку его эф- 
фективности. Этот анализ был подтвержден многосторон- 
ними эмпирическими экспериментами, а сам алгоритм 
был усовершенствован до такой степени, что ему отдают 
предпочтение в широчайшем диапазоне практических 
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применений сортировки. По этой причине потребуется уделить гораздо большее вни- 
мание эффективной реализации алгоритма быстрой сортировки, нежели реализаци- 
ям других алгоритмов. Аналогичные методы реализации целесообразно применять и 
к другим алгоритмам; поместив в них быструю сортировку, ими можно пользовать- 
ся с большей уверенностью, поскольку появится возможность в точности предсказать, 
какое влияние они окажут на эффективность сортировки. 

Заманчиво попытаться разработать способы улучшения быстрой сортировки: чем 
выше быстродействие алгоритма сортировки, тем привлекательнее выглядят возмож- 
ности вычислительных систем, а быстрая сортировка представляет собой почтенный 
метод, который лишь усиливает это впечатление. Практически с момента опублико- 
вания Хоаром алгоритма быстрой сортировки в литературе стали регулярно появлять- 
ся его усовершенствованные версии. Предлагалось и анализировалось множество 
идей, но при этом совсем не трудно ошибиться при оценке этих улучшений, посколь- 
ку данный алгоритм настоль хорошо сбалансирован, что эффект от усовершенство- 
вания одной части программы может послужить причиной ухудшения функциониро- 
вания другой ее части. Мы детально изучим три модификации, которые существенно 
повышают эффективность быстрой сортировки. 

Тщательно сбалансированная версия быстрой сортировки, по всей вероятности, 
будет выполняться быстрее любого другого метода сортировки на большинстве ком- 
пьютеров, к тому же быстрая сортировка широко используется как библиотечная про- 
грамма сортировки и для других серьезных приложений сортировки. В самом деле, 
сортировка из стандартной библиотеки С++ называется (б[ыстрая] сортировка), 
ибо обычно именно алгоритм быстрой сортировки лежит в основе различных реали- 
заций. Однако, время выполнения быстрой сортировки зависит от организации вход- 
ных данных и колеблется между линейной и квадратичной зависимостью от количе- 
ства сортируемых элементов и пользователи иногда бывают неприятно удивлены 
неожиданно неудовлетворительными, неприемлемыми результатами сортировки не- 
которых видов входных данных, особенно когда используются хорошо отлаженные 
версии этого алгоритма. Если приложение работает настолько плохо, что возникает 
подозрение в наличии дефектов в реализации быстрой сортировки, то сортировка 
методом Шелла может оказаться более удачным выбором, обеспечивающим лучший 
результат при меньших затратах на реализацию. Следует отметить, что в случае особо 
крупных файлов быстрая сортировка выполняется примерно в пять-десять раз быс- 
трее сортировки методом Шелла, при этом на некоторых видах файлов, довольно 
часто встречающихся на практике, может быть достигнута еще большая эффектив- 
ность данного вида сортировки. 

7.1. Базовый алгоритм 

Быстрый метод сортировки функционирует по принципу "разделяй и властвуй". 
Он делит сортируемый массив на две части, затем сортирует эти части независимо 
друг от друга. Как будет показано далее, точное положение точки деления зависит от 
исходного порядка элементов во входном файле. Суть метода заключается в процессе 
разбиения файла, который переупорядочивает файл таким образом, что выполняются 
следующие условия: 
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■ Элемент а[і] для некоторого і занимает свою 
окончательную позицию в массиве. 

■ Ни один из элементов не пре- 

вышает а[і]. 

■ Ни один из элементов а[і+1],..., а[г] не явля- 
ется меньшим а[і]. 

Полная сортировка достигается путем деления 
файла на подфайлы с последующим применением к 
ним этих же методов (см. рис. 7.1). Поскольку про- 
цесс разбиения всегда помещает, по меньшей мере, 
один из элементов в окончательную позицию, по 
индукции нетрудно получить формальное доказа- 
тельство того, что этот рекурсивный метод обеспе- 
чивает правильную сортировку. Программа 7.1 со- 
держит рекурсивную реализацию упомянутой идеи. 

Программа 7.1. Быстрая сортировка 

Если в массиве имеется один или меньшее число эле- 
ментов, то ничего делать не надо. В противном случае 
массив подвергается обработке со стороны процедуры 
рагШіоп (см. программу 7.2), которая помещает эле- 
мент а[і] для некоторого і в позицию между I и г вклю- 
чительно и переупорядочивает остальные элементы та- 
ким образом, что рекурсивные вызовы этой процедуры 
должным образом завершают сортировку. 

■Ьетріа-Ье Ссіазз Іѣет> 

ѵоісі фдіскзогі: (Іівт а[] , іпѣ 1, іп*Ь г) 

{ 

(г <= 1) гѳѣит; 
іпі: і = рагѣіѣіоп(а, 1, г) ; 
фііскзогѣ (а, 1, і-1) ; 

фііскзогМа, і+1 г г) ; 

} 
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РИСУНОК 7.1. ПРИМЕР БЫСТРОЙ 
СОРТИРОВКИ 

Быстрая сортировка 
представляет собой рекурсивный 
процесс разбиения файла на части: 
мы разбиваем его , помещая 
некоторый (разделяющий) элемент 
в свою окончательную позицию и 
выполняем перегруппировку массива 
таким образом, что элементы, 
меньшие по значению, остаются 
слева от разделяющего элемента, а 
элементы, большие по значению, — 
справа. Далее мы рекурсивно 
сортируем левую и правую части 
массива. Каждая строка этой 
диаграммы представляет 
результат разбиения 
отображаемого подфайла с 
помощью элемента, заключенного в 
кружок. Конечным результатом 
такого вида' сортировки является 
полностью отсортированный файл. 



Разбиение осуществляется с использованием следующей стратегии. Прежде всего, 
в качестве разделяющего элемента (рагШіопіп& еіетепі) произвольно выбирается элемент 
а[г] — он сразу займет свою окончательную позицию. Далее начинается просмотр с 
левого конца массива, который продолжается до тех пор, пока не будет найден эле- 
мент, превосходящий по значению разделяющий элемент, затем выполняется про- 
смотр, начиная с правого конца массива, который продолжается до тех пор, пока не 
отыскивается элемент, который по значению меньше разделяющего. Оба элемента, 
на которых просмотр был прерван, очевидно, находятся не на своих местах в разде- 
ленном массиве, и потому они меняются местами. Мы продолжаем дальше в том же 
духе, пока не убедимся в том, что слева от левого указателя не осталось ни одного 
элемента, который был бы больше по значению разделяющего, и ни одного элемента 
справа от правого указателя, которые были бы меньше по значению разделяющего 
элемента, как показано на следующей диаграмме 
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меньше или равен ѵ 



больше или равен ѵ 


ѵ 




Здесь у есть ссылка на разделяющий элемент, 
і — на левый указатель, а ) — на правый указа- 
тель. Как показано на диаграмме, целесообразно 
останавливать просмотр слева на элементах, боль- 
ших или равных разделяющему, а просмотр спра- 
ва — на элементах, меньших или равных элемен- 
ту разделения, даже если подобная стратегия 
может привести к лишним обменам элементов, 
равных по значению разделяющему (далее в этом 
разделе упоминаются аргументы, говорящие в 
пользу такой стратегии). Когда указатели про- 
смотра пересекаются, все, что необходимо сделать 
в этом случае — это обменять элемент а[г] с край- 
ним левым элементом правого подфайла (на этот 
элемент указывает левый указатель). Программа 
7.2 содержит реализацию этого процесса, а на 
рис.7.2 и 7.3 приводятся примеры. 

Внутренний цикл быстрой сортировки увели- 
чивает значение указателя на единицу и сравни- 
вает элементы массива с конкретным фиксиро- 
ванным значением. Именно эта простота и делает 
быструю сортировку быстрой: трудно себе пред- 
ставить более короткий внутренний цикл в алго- 
ритме сортировки. 

Программа 7.2 использует явную проверку, 
чтобы прекратить просмотр, когда разделяющий 
элемент является наименьшим элементом масси- 
ва. Возможно, во избежание подобной проверки 
стоило бы воспользоваться служебным значением: 
внутренний цикл быстрой сортировки настолько 
мал, что одна лишняя проверка может оказать за- 
метное влияние на эффективность алгоритма. 
Служебное значение не требуется в данной реа- 
лизации, когда разделяющим элементом оказыва- 
ется наибольший элемент файла, поскольку сам 
разделяющий элемент находится на правом кон- 
це массива, что является условием завершения 
просмотра. Другие реализации разделения, кото- 
рые рассматриваются далее в разделе и в ряде 
мест главы, не обязательно останавливают про- 
смотр, если проверяемый ключ равен разделяю- 


А 5 О В Т I N6 Е X АМР і(е) 

а з ■' 

; ; V : : ѵ ; \ ; А М Р Г ѵ 7у 

А 3 М Р I. Е 

; у ■ : 7 і Е X V ; у 7 

А А Е О X $ М Р і. Е 


В 

Е Р Т I N С 


А А Е(е)Т I ЫСОХ5МРІ.В 

РИСУНОК 7.2. РАЗДЕЛЕНИЕ 
В БЫСТРОЙ СОРТИРОВКЕ 

Разделение в быстрой сортировке 
начинается с выбора (произвольного) 
разделяющего элемента. В программе 
7.2 для этой цели используется самый 
правый элемент Е. Затем 
выполняется просмотр слева с 
пропуском элементов с меньшими 
значениями и справа с пропуском 
элементов с большими значениями , 
обмен элементов, на которых 
просмотры остановились, после чего 
просмотр продолжается до тех пор, 
пока значения указателей не 
совпадут. Мы начинаем с просмотра 
слева и останавливаемся на 5, затем 
проводится просмотр справа, 
который останавливается на 
элементе А, после чего производится 
обмен местами элементов 8 и А. 
Далее процесс продолжается слева до 
тех пор, пока не остановится на О, 
после чего продолжается просмотр 
справа до тех пор, пока он не 
остановится на элементе Е, и обмен 
О и Е. После этого указатели 
просмотра пересекаются: мы 
продолжаем просмотр слева, пока не 
остановимся на К, продолжаем 
просмотр справа (міщуя К), пока не 
остановимся на Е. Рассматриваемый 
процесс завершается тем, что 
разделяющий элемент (правый Е) 
обменивается с К. 
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щему элементу — возможно, в таких реализациях и потребуется еще одна проверка 
во избежание ситуации, когда указатель смещается с правого конца массива. С дру- 
гой стороны, усовершенствование быстрой сортировки, которое будет обсуждаться в 
разделе 7.5, имеет своим положительным побочным эффектом то обстоятельство, что 
отпадает необходимость как в проверке, так и в наличии самого служебного значе- 
ния на каждом конце. 

Процесс разделения неустойчив, поскольку во время любой операции обмена лю- 
бой ключ может пройти мимо большого числа равных ему ключей (которые остают- 
ся непроверенными). Простые способы сделать быструю сортировку, ориентирован- 
ную на массивы, устойчивой, пока не известны. 

Реализацию разделяющей процедуры следует выполнять с особой осторожностью. 
В частности, наиболее простой способ гарантировать завершение рекурсивной про- 
граммы заключается в том, что (/) она не вызывает себя для файлов с размерами 1 
и менее и (И) вызывает себя только для файлов, размер которых строго меньше раз- 
меров входного файла. Эти стратегии на первый взгляд кажутся очевидными, одна- 
ко при этом легко упустить из виду такие свойства ввода, которые в конечном сче- 
те могут послужить причиной неудачи. Например, обычная ошибка в реализации 
быстрой сортировки заключается в отсутствии гарантии того, что каждый элемент 
всегда будет поставлен в нужное место, а также в возможности вхождения програм- 
мы сортировки в бесконечный цикл в случаях, когда разделяющим элементом служит 
наибольший или наименьший элемент файла. 

Когда в файле встречаются дубликаты ключей, фиксация момента пересечения 
указателей сопряжена с определенными трудностями. Процесс разбиения можно 
слегка усовершенствовать, если остановить просмотр при і<|, а затем воспользоваться 
значением а не і-1, чтобы определить правую границу левого подфайла при пер- 
вом рекурсивном вызове. В таком случае выполнение еще одной итерации цикла сле- 
дует рассматривать как усовершенствование, поскольку оба цикла просмотра пре- 
кращаются, когда і и і ссылаются на один тот же элемент, в результате два элемента 
занимают свои окончательные позиции: один из них — это элемент, который оста- 
новил оба просмотра и в силу этого обстоятельства должен быть равен разделяюще- 
му элементу, а также и сам разделяющий элемент. Подобная ситуация могла бы воз- 
никнуть, например, если бы на рис. 7.2 К был Е. Это изменение, по-видимому, 
заслуживает того, чтобы его внести в программу, ибо в данном конкретном случае 
программа в том виде, в каком она здесь представлена, оставляет запись с ключом, 
равным ключу разделяющего элемента, в а[г] , и это приводит к тому, что первое раз- 
деление, выполняемое за счет вызова яіііск§ог1(а, і+1, г), вырождается, поскольку 
самый правый ключ оказывается наименьшим. Однако, реализацию разделения, ис- 
пользуемую в программе 7.2, несколько проще понять, так что в дальнейшем мы бу- 
дем ссылаться на нее как на базовый метод разделения, применяемый в быстрой сор- 
тировке. Если в сортируемом файле присутствует значительное число дублированных 
ключей, то на передний план выступают другие факторы. Они будут рассматривать- 
ся несколько позже. 
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Программа 7.2. Разделение 

Переменная ѵ сохраняет значение разделяющего элемента 
а[г], а і и \ представляет собой, соответственно, указатели 
левого и правого просмотра. Цикл разделения увеличивает 
значение і и уменьшает значение \ на 1, причем условие, что 
ни один элемент слева от і не больше ѵ и ни один элемент 
справа от \ не больше ѵ, не нарушается. Как только значения 
указателей пересекаются, процедура разбиения завершает- 
ся, меняя местами а[г] и а[і], при этом ѵ присваивается зна- 
чение а[і], так что не будет ни одного большего элемента 
справа от ѵ и ни одного меньшего элемента слева от ѵ. 

Разделяющий цикл реализуется в виде бесконечного цикла, 
который прерывается функцией Ьгеак, когда указатели пере- 
секаются. Проверка і==1 обеспечивает защиту от случая, ког- 
да в качестве разделяющего элемента используется наимень- 
ший элемент файла. 

ЬетрІаЬе Ссіазз ІЬет> 

іпЬ рагіШоп (ІЬет а[] , іпЬ 1, іпЬ г) 

{ іпЬ і = 1-1, з = г; ІЬет ѵ = а[г]; 

^ог ( ; ; ) 

{ 

ѵЬіІе (а[++і] < ѵ) ; 

ѵЫІе (ѵ < а[-~з]) (з == 1) 

Ьгеаке ; 

(і >= з) Ьгеаке; 
ехсЬ (а [і] , а [ з ] ) ; 

} 

ехсЬ(а[і] , а [г] ) ; 
геЬигп і ; 

} 


Существуют три основных стратегии, которые можно 
выбрать применительно к ключам, равным разделяюще- 
му элементу: заставить оба указателя останавливаться на 
таком ключе (как это имеет место в программе 7.2); зас- 
тавить один указатель остановиться, а другому позволить 
продолжать просмотр; позволить обоим указателям про- 
должить просмотр. Вопрос о том, какая из этих стратегий 
лучше, был тщательно изучен с привлечением математи- 
ческого аппарата, и результаты показали, что наилучшей 
стратегией является останов обоих указателей главным 
образом потому, что при этом получается сбалансирован- 
ное разделение при наличии множества дублированных 
ключей, в то время как две других стратегии для некото- 
рых видов файлов приводят к ярко выраженному нару- 
шению баланса. В разделе 7.6 рассматривается несколько 
более сложный и в то же время гораздо более эффектив- 
ный способ работы с дублированными ключами. 
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РИСУНОК 7.3. 
ДИНАМИЧЕСКИЕ 
ХАРАКТЕРИСТИКИ 
ПРОЦЕССА РАЗДЕЛЕНИЯ 
БЫСТРОЙ СОРТИРОВКИ 

Процесс разбиения делит 
файл на два подфайла , 
которые могут 
подвергаться сортировке 
независимо друг от друга. 

Ни один из элементов слева 
от значения указателя 
просмотра левого подфайла 
не может быть больше его , 
так что выше и левее его на 
диаграмме точек нет; ни 
один из элементов справа от 
значения указателя 
просмотра правого подфайла 
не может быть меньше его , 
так что ниже и правее его 
на диаграмме точек нет. Из 
этих двух примеров легко 
видеть , что разбиение файла 
с произвольной организацией 
делит его на два файла 
меньших размеров с 
произвольной организацией , 
при этом один элемент (а 
именно, разделяющий) 
занимает свою 
окончательную позицию на 
диагонали. 






Глава 7 . Быстрая сортировка 


305 


В конечном итоге эффективность сортировки зависит от качества разбиения фай- 
ла, которое, в свою очередь, зависит от выбора значения разделяющего элемента. 
Рисунок 7.2 демонстрирует, что процедура разделения разбивает крупный файл с 
произвольной организацией на два файла с произвольной организацией меньших 
размеров, но при этом точка раздела может оказаться в любом месте файла. Мы 
предпочитаем выбирать такую точку раздела вблизи от середины файла, однако не 
располагаем необходимой для этого информацией. Если сортируется файл с произ- 
вольной организацией, то выбор элемента а[г] в качестве разделяющого — это то же 
самое, что и выбор любого другого конкретного элемента; он дает нам в общем слу- 
чае точку раздела в непосредственной близости от середины. В разделе 7.4 проводится 
анализ рассматриваемого алгоритма, который позволит сравнить такой случай с иде- 
альным выбором. В разделе 7.5 будет показано, насколько подобного рода анализ 
может оказаться полезным при выборе разделяющего элемента в целях повышения 
эффективности рассматриваемого алгоритма. 

Упражнения 

> 7.1. Показать в стиле рассмотренного здесь примера, как быстрая сортировка сор- 
тирует файл ЕА8УС21УЕ8ТІ0 1Ч. 

7.2. Показать, как производится разделение файла 100111000001010 0, 
используя для этой цели программу 7.2 и несущественные модификации, предла- 
гаемые по тексту. 

7.3. Реализовать разделение, не прибегая к помощи операторов Ьгеак или &о!о. 

• 7.4. Разработать устойчивую быструю сортировку для связных списков. 

о 7.5. Каким является максимальное число перемещений наибольшего элемента 
файла, состоящего из УѴ элементов, во время выполнения быстрой сортировки. 

7.2. Характеристики производительности 

быстрой сортировки 

Несмотря на все ее ценные качества, базовая программа быстрой сортировки об- 
ладает определенным недостатком, который заключается в том, что она исключи- 
тельно неэффективна на некоторых простых файлах, которые могут встретиться на 
практике. Например, если она применяется для сортировки файла размером УѴ, ко- 
торый уже отсортирован, то все имеющиеся разделения вырождаются, и программа 
вызовет сама себя УѴ раз, перемещая за каждый вызов всего лишь один элемент. 

Лемма 7.1. Быстрая сортировка в наихудшем случае выполняет примерно А 2 / 2 опера- 
ций сравнения. 

В силу только что приведенного аргумента, число операций сравнения, выполнен- 
ных при сортировке уже отсортированного файла, выражается как 

УѴ + (УѴ- 1) + (УѴ- 2) + ... + 2 + 1 = (УѴ + 1) УѴ/ 2. 

Все разделения вырождаются как в случае файла, отсортированного в обратном 
порядке, так и в случае файлов определенных видов, вероятность столкнуться с 
которыми на практике существенно ниже (см. упражнение 7.6). 
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Подобное поведение означает не только то, что время выполнения быстрой сор- 
тировки приближенно определяется зависимостью УѴ 2 /2, но и то, что пространство 
памяти, необходимое для выполнения этой рекурсии, примерно пропорционально N 
(см. раздел 7.3), что в случае крупных файлов недопустимо. К счастью, имеются срав- 
нительно простые способы существенного снижения вероятности того, что наихуд- 
ший случай возникнет в типовых применениях рассматриваемой программы. 

Наиболее благоприятный для быстрой сортировки случай имеет место, когда на 
каждой стадии разбиения файл делится на две равные части. Это обстоятельство при- 
водит к тому, что количество операций сравнения, выполняемых в процессе быстрой 
сортировки, удовлетворяет реккурентному соотношению типа "разделяй и властвуй". 

Сдг= 2 Сдг /2 + Ж 

Член 2 Сдг /2 соответствует затратам на сортировку двух подфайлов; УѴ суть затраты 
на проверку каждого элемента, для чего используется тот или иной разделяющий ука- 
затель. Из главы 5 уже известно, что это рекуррентное соотношение имеет решение 


Несмотря на то что не всегда все так удачно складывается, тем не менее, верно, 
что в среднем разделение попадает на середину файла. Если еще учесть точную веро- 
ятность каждой позиции разделения, то указанное выше рекуррентное соотношение 
становится более сложным и более трудным для решения, однако окончательный 
результат примерно такой же. 

Лемма 7.2. Быстрая сортировка в среднем выполняет 2N ІпУѴ операций сравнения. 

Точное рекуррентное соотношение для определения числа сравнений, выполня- 
емых во время быстрой сортировки N случайно распределенных различных эле- 
ментов, имеет вид 



-іѵ+і+— У(С,-| +Сдг-^) 

N . — . 


1<*<7Ѵ 


для N > 2, 


при С\ = Со = 0. Член N + 1 учитывает затраты на выполнение операций сравне- 
ния разделяющего элемента с каждым из остальных элементов (два дополнитель- 
ных в точке пересечения указателей); наличие остальных компонентов обуслов- 
лено тем фактом, что каждый элемент к может стать разделяющим элементом с 
вероятностью 1 /к, после чего остаются файлы с произвольной организацией, име- 
ющие размеры к — 1 и N — к. 

Это рекуррентное соотношение, несмотря на внешнюю сложность, факти- 
чески довольно просто решается, буквально за три действия. Во-первых, 
Со + С\ +...+ Суѵ-і есть ни что иное как Сдм + Сдг_ 2 +...+ Со; следовательно, имеем 


С/ѵ — N + 1 + 


2 

N 


X 


1<*<7Ѵ 


Во-вторых, можно избавиться от суммы, если умножить обе части равенства на N 
и вычесть такую же формулу для N — 1 

NС N ~(N- 1 )Оѵ_, = 7Ѵ(УѴ + 1) ~ (УѴ— \)Б!+2С Ы ^ 
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За счет такого упрощения рассматриваемое рекуррентное соотношение приобре- 
тает вид 

NС N ={N+ 1)С*_,+ 2N. 

В третьих, разделив обе части на + 1) , получим рекуррентное соотношение, 
которое приобретает более компактную форму: 


Ы + 1 



2 

N + \ 


С М-2 
N-1 



2 

7Ѵ + 1 




Ъ<к<Ы 





Это точное выражение почти равно сумме, которая легко аппроксимируется ин- 
тегралом (см. раздел 2.3): 


См 
Ы + 1 



(іх- 2 1п 7Ѵ, 


откуда вытекает объявленный ранее результат. Обратите внимание на то, что 
27Ѵ1п7Ѵ~ 1.397Ѵ1§УѴ, так что среднее количество операций сравнения приблизитель- 
но лишь на 39 процентов больше, чем в самом лучшем случае. 


Данный анализ предполагает, что сортируемый файл содержит случайно упорядо- 
ченные записи с различными ключами, однако реализации в программах 7.1 и 7.2 
могут работать медленно в случаях, когда ключи не обязательно различны и не обя- 
зательно расположены в случайном порядке (рис. 7.4). Если сортировка применяет- 
ся многократно или если она должна использоваться для упорядочения очень боль- 
шого файла (или, в частности, если она должна использоваться как универсальная 
библиотечная функция для сортировки файлов с неизвестными характеристиками), 
следует рассмотреть несколько усовершенствований, предлагаемых в разделах 7.5 и 

7.6, которые снижают вероятность того, что наихудший случай возникнет на практи- 
ке, а также уменьшают среднее время выполнения сортировки где-то на 20 процен- 
тов. 


Упражнения 

7.6. Построить шесть файлов из 10 элементов, при упорядочении которых метод 
быстрой сортировки (программа 7.1) выполняет то же число операций сравнения, 
что и в самом худшем случае (когда все элементы файла упорядочены). 

7.7. Написать программу, вычисляющую точное значение См, и сравнить это точ- 
ное значение с приближенным значением 2УѴ1п?Ѵдля N = ІО 3 , 10 4 , ІО 5 и ІО 6 . 

о 7.8. Сколько примерно операций сравнения выполнит быстрая сортировка (про- 
грамма 7.1) для упорядочения файла из N равных элементов? 
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РИСУНОК 7.4. ДИНАМИЧЕСКИЕ ХАРАКТЕРИСТИКИ БЫСТРОЙ СОРТИРОВКИ НА ФАЙЛАХ 
РАЗЛИЧНЫХ ТИПОВ 

Выбор произвольного разделяющего элемента в быстрой сортировке приводит к тому , что для 
различных файлов применяются различные сценарии разбиения. Приводимые здесь диаграммы 
иллюстрируют начальные части сценариев , ориентированных на файлы с произвольной организацией , 
на файлы, упорядоченные в соответствии с распределением Гаусса, на почти упорядоченные, на 
почти упорядоченные в обратном порядке и на файлы с произвольной организацией с 10 различными 
значениями ключей (слева направо), использующих относительно большое значение отсечения для 
небольших подфайлов. Элементы, не вовлеченные в разделение, занимают места вблизи от диагонали, 
после чего остаются массивы, которые легко упорядочиваются за счет последующего применения 
сортировки вставками. Почти упорядоченные файлы требуют выполнения чересчур большого 
количества разбиений. 
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7.9. Сколько примерно операций сравнения понадобится быстрой сортировке 
(программа 7.1), чтобы выполнить сортировку файла, состоящего из УѴ элементов, 
которые имеют два различных значений ключа ( к элементов с одним значением 
и N — к элементов с другим значением)? 

• 7.10. Написать программу, которая строит файл, представляющий собой наиболее 
благоприятный случай для быстрой сортировки: файл из N различных элементов, 
обладающих таким свойством, что каждое его разбиение генерирует подфайлы, 
которые отличаются друг от друга по размерам максимум на 1 элемент. 


7.3. Размер стека 

Так же как и в главе 3, для выполнения быстрой сорти- 
ровки можно воспользоваться стеком магазинного типа, 
рассматривая его как стек, в котором в виде сортируемых 
подфайлов содержится перечень работ, которые предсто- 
ит выполнить. Каждый раз когда возникает необходимость 
в обработке подфайла, он выталкивается из стека. После 
разделения файла получаются два подфайла, требующих 
дальнейшей обработки, которые и заталкиваются в стек. В 
рекурсивной реализации, представленной программой 7.1, 
стек, который поддерживается системой, содержит именно 
эту информацию. 

Что касается файлов с произвольной организацией, то 
максимальный раздел стека пропорционален значению 
1о§ N (см. раздел ссылок ), однако в условиях вырожденного 
случая стек может расширяться до размеров, пропорцио- 
нальных УѴ, как показано на рис. 7.5. В самом деле, наи- 
более трудный случай имеет место тогда, когда файл уже 
отсортирован. Потенциальная возможность увеличения 
размеров стека до пропорциональных размерам сортиру- 
емого файла в условиях рекурсивной реализации быстрой 
сортировки представляет собой не очевидную, но в то же 
время вполне реальную проблему: в условиях этого мето- 
да сортировки всегда используется стек, а в вырожденном 
случае при работе с файлом большого размера подобное 
обстоятельство может послужить причиной аварийного ос- 
танова программы ввиду нехватки памяти. Такое поведе- 
ние совершенно недопустимо для библиотечной програм- 
мы сортировки. (По всей вероятности, мы скорее 
столкнемся с проблемой недопустимо длительной сорти- 
ровки, нежели с проблемой нехватки памяти.) Трудно га- 
рантировано исключить подобное поведение программы, 
но как будет показано в разделе 7.5, нетрудно предусмот- 
реть специальные средства, которые делают вероятность 
возникновения таких вырожденных случаев исключитель- 
но малой. 



РИСУНОК 7.5. РАЗМЕР 
СТЕКА ДЛЯ БЫСТРОЙ 
СОРТИРОВКИ. 

Рекурсивный стек для 
быстрой сортировки не 
становится больше для 
файлов с произвольной 
организацией, но в то же 
время он может 
потребовать 
дополнительного 
пространства при работе с 
вырожденными файлами. 

На диаграмме представлены 
размеры стеков для двух 
файлов с произвольной 
организацией (слева, в 
центре) и размеры для 
частично упорядоченных 
файлов (справа). 
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Программа 7.3 представляет собой нерекурсивную 
реализацию, которая решает данную проблему путем 
проверки размеров обоих подфайлов и размещения 
большего из них в стек первым. Рисунок 7.6 служит 
иллюстрацией такой стратегии. Сравнивая этот при- 
мер с приведенным на рис. 7.1, мы видим, что при та- 
кой стратегии подфайлы не меняются, меняется только 
порядок их обработки. Таким образом, мы сокращаем 
расход памяти без увеличения расхода времени. 

Стратегия, которая заключается в том, что в стек 
помещается больший их двух подфайлов, приводит к 
тому, что каждая запись в стеке составляет не более 
чем половину записи, предшествующей ей в стеке, 
поэтому под стек отводится пространство памяти, до- 
статочное для размещения примерно записей. 
Использование стека по максимуму имеет место, ког- 
да точка разделения приходится на середину файла. 
Что касается файлов с произвольной организацией, то 
фактический максимальный размер стека намного 
меньше; для вырожденных файлов его размер, по- 
видимому, также будет небольшим. 

Программа 7.3. Нерекурсивная программная реализация 
быстрой сортировки. 

Представленная ниже нерекурсивная реализация (см. 
главу 5) использует явно определенный стек магазинно- 
го типа, заменяя рекурсивные вызовы помещением в 
стек параметров, а вызовы процедур и выходы из них — 
циклом, который осуществляет выборку параметров из 
стека и их обработку, пока стек не пуст. Мы помещаем 
больший из двух подфайлов в стек первым с тем, чтобы 
максимальная глубина стека при сортировке N элемен- 
тов не превосходила величины Ід N. 
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РИСУНОК 7.6. ПРИМЕР БЫСТРОЙ 
СОРТИРОВКИ (ПЕРВЫМ 
СОРТИРУЕТСЯ МЕНЬШИЙ 
ПОДФАЙЛ) 

Очередность, в которой 
производится обработка 
подфайлов, не препятствует 
корректному выполнению 
алгоритма быстрой сортировки и 
не приводит к увеличению 
времени выполнения сортировки, 
однако может повлиять на 
размеры стека магазинного 


типа, положенного в основу 
рекурсивной структуры. В 
рассматриваемом случае первым 
обработке подвергается меньший 
из подфайлов, образованных в 
результате каждого разделения. 


#іпс1и<іе "ЗТАСК.схх" 

іпііпе ѵоісі ризЬ2 (ЗТАСК<іпѣ> &з , іпЪ А, іггЬ В) 

{ з.ризЬ(В); з.ризЪ(А); } 

‘Ьетріаѣѳ <с1азз І1ет> 

ѵоісі фііскзогѣ (Іѣет а[] , іпѣ 1, іпі г) 

{ 5ТАСК<іпѣ> з (50) ) ; 
ризЬ2(з, 1, г); 

кЬііѳ ( ! з . втрЪу () ) 

{ 

1 = з.рор(); г = з.рорО; 
і.± (г <= 1) сопЪіпие; 
іпі і = рагѣі'Ъіоп (а, 1, г) ; 
іпѣ (і-1 > г-і) 

{ ризЪ2(з / 1, і-1); ризЬ2(з, і+1, г); } 


{ ризЪ.2 (з , і+1, г); ризЬ2(з / 1, і-1); } 


> 


} 
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Лемма 7.3. Если меньший из двух подфайлов сортируется первым , то стек никогда не 
содержит более 1§тѴ вхождений в случаях, когда для сортировки N файлов применяет- 
ся быстрая сортировка . 


В наихудшем случае размер стека не должен превышать Т V, где Т ы удовлетворя- 
ет рекуррентному соотношению 7^ = Т[ м/1 \ + 1 при Т\ = Г 0 =0. Это рекуррентное 
соотношение является стандартным и принадлежит к типу, рассмотренному в гла- 
ве 5 (см. упражнение 7.13). 


Этот метод не обязательно будет работать в 
по-настоящему рекурсивной реализации, по- 
скольку он зависит от очистки стека по окончании 
рекурсивной процедуры (епд- либо іаіі-гесипіоп 
гетоѵаі). Когда последним действием какой-либо 
процедуры является вызов другой процедуры, то в 
некоторых системах программирования действует 
следующее соглашение: локальные переменные 
удаляются из стека раньше , чем произойдет такой 
вызов, но отнюдь не после этого. Без такой очи- 
стки нельзя быть уверенным, что размер стека, 
используемого быстрой сортировкой, будет не- 
большим. Например, вызов быстрой сортировки с 
целью упорядочения уже отсортированного фай- 
ла размером N приводит к рекурсивному вызову 
для упорядочения такого же файла, но размером 
УѴ~ 1, что, в свою очередь, приводит к рекурсив- 
ному вызову для файла размером УѴ— 2 и так да- 
лее, для чего в конечном итоге потребуется стек с 
глубиной, пропорциональной N. С учетом подоб- 
ного обстоятельства сам собою напрашивается 
вывод о необходимости использования нерекур- 
сивной реализации, что гарантировало бы от 
чрезмерного "разбухания" стека. С другой сторо- 
ны, некоторые компиляторы С++ автоматически 
исключают завершающую очистку стека, и многие 
машины обеспечивают прямую аппаратную под- 
держку вызовов функций — поэтому нерекурсив- 
ная реализация, представленная программой 7.3, 
может на самом деле в такой среде оказаться мед- 
леннее рекурсивной реализации, представленной 
в программе 7.1. 

Рисунок 7.7 служит иллюстрацией того, как 
нерекурсивный метод производит обработку тех 
же подфайлов (но в другом порядке), что и ре- 
курсивный метод, применительно к любому фай- 
лу. На нем показана древовидная структура, в ко- 



РИСУНОК 7.7. РАЗДЕЛЯЮЩЕЕ ДЕРЕВО 
БЫСТРОЙ СОРТИРОВКИ 

Если мы сожмем диаграммы 
разделения, представленные на рис . 

7.6 и 7. 1, соединив каждый 
разделяющий элемент с разделяющими 
элементами, использованными в двух 
его подфайлах, то получим показанное 
на данной диаграмме статическое 
представление процесса разделения 
(для обоих случаев). В этом бинарном 
дереве каждый подфайл представлен 
своим разделяющим элементом (или 
самим собой, если он имеет размер 1), 
и поддеревья каждого узла суть 
деревья, представляющие подфайлы 
после разделения. Дабы не 
загромождать рисунок, нулевые 
подфайлы на нем не показаны, хотя 
наши рекурсивные версии алгоритма 
выполняют рекурсивные вызовы при 
выполнении условия г<1, когда 
разделяющим элементом становится 
наименьший или наибольший элемент 
файла. Само по себе дерево не зависит 
от очередности, в которой подфайлы 
подвергаются разделению. Наша 
рекурсивная реализация сортировки 
соответствует посещению узлов при 
их обходе в прямом порядке, а 
нерекурсивная реализация 
соответствует правилу посещения 
сначала наименьшего дерева. 
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тором корневым элементом служит разделяющим элемент, а также порожденные при 
этом левое и правое поддеревья, соответствующие левому и правому подфайлам и яв- 
ляющиеся, соответственно, левым и правым потомками. Использование рекурсивной 
реализации, представленной программой 7.3, соответствует просмотру этих узлов в 
прямом порядке; нерекурсивная реализация соответствует правилу просмотра снача- 
ла наименьшего дерева. 

Когда используется явно заданный стек, что, собственно говоря, и делалось в про- 
грамме 7.3, удаЬтся избегать некоторых непроизводительных затрат, характерных для 
рекурсивных реализаций, хотя современные системы программирования не привно- 
сят больших непроизводительных затрат в столь простые программы. Программу 7.3 
можно улучшать и дальше. Например, она помещает в стек оба подфайла, но толь- 
ко подфайл, хранящийся в верщине стека, доступен в любой момент; такое положе- 
ние дел можно изменить, явно объявив специальные переменные г и 1. Итак, произ- 
водится проверка условия г < 1 по мере того, как подфайлы выбираются из стека, в то 
время как намного эффективнее вообще не сохранять в стеке файлы, удовлетворя- 
ющие упомянутому условию (упражнение 4.14). Эта мера, на первый взгляд, может 
показаться несущественной, однако рекурсивный характер быстрой сортировки фак- 
тически приводит к тому, что значительная часть подфайлов в процессе быстрой сор- 
тировки имеет размеры 1 или 0. Далее рассматривается важное усовершенствование 
быстрой сортировки, которое обеспечирает повышение ее эффективности за счет 
распространения этой идеи на все файлы небольших размеров. 

Упражнения 

> 7.11. В стиле рис. 7.11 представить содержимое стека после каждой пары операций 
помещения (ризН) в стек и выталкивания (рор ) из стека, когда программа 7.3 исполь- 
зуется для сортировки файла, содержащего ключиЕА8Ѵ(31]Е8ТІО]Ч. 

> 7 . 12 . Выполнить задание, сформулированное в упражнении 7.11, для случая, когда 
в стек сначала помещается правый подфайл, а затем левый подфайл (как это при- 
нято в рекурсивной реализации). 

7 . 13 . Завершить доказательство леммы 7.3, воспользовавшись для этой цели мето- 
дом индукции. 

7 . 14 . Внесите в программу 7.3 такие изменения, чтобы она не помещала в стек 
подфайлы, удовлетворяющие условию г <= 1. 

> 7 . 15 . Вычислить максимальный размер стека, затребованного программой 7.3, 
когда N = 2”. 

7 . 16 . Вычислить максимальные размеры стека, затребованного программой 7.3, 
когда N = 2" - \ и N = 2 п + \. 

о 7 . 17 . Имеет ли смысл использовать для нерекурсивной реализации быстрой сор- 
тировки вместо стека очередь? Предъявите аргументы для обоснования своих от- 
ветов. 

7 . 18 . Выясните и сообщите, практикует ли ваша система программирования очи- 
стку стека по завершении рекурсивной процедуры. 
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• 7.19. Выполните эмпирические исследования с целью определения среднего раз- 
мера стека, используемого базовым рекурсивным алгоритмом для сортировки фай- 
ла с произвольной организацией, состоящего из ІѴ элементов, причем N = ІО 3 , ІО 4 , 
10 5 и ІО 6 . 

•• 7.20. Найти среднее число подфайлов размера 0, 1 и 2, когда быстрая сортировка 
используется для сортировки произвольно организованного файла из N элемен- 
тов. 

7.4. Подфайлы небольших размеров 

Заметное повышение эффективности быстрой сортировки следует из того факта, 
что рекурсивная программа гарантировано вызывает сама себя для работы со мно- 
жеством подфайлов небольших размеров. Следовательно, когда она сталкивается с 
подфайлами небольших размеров, она обязана использовать по возможности самый 
лучший метод работы с ними. Один из очевидных способов достижения данной цели 
предусматривает соответствующую проверку в начале рекурсивной программы на 
участке от оператора гейігп до вызова сортировки методом вставки, например, 

і€ (г-1 <= М) іпзегеіоп(а / 1, г); 

Здесь М — это некоторый параметр, точное значение которого зависит от реали- 
зации. Мы можем определить наилучшее значение М путем анализа либо эмпиричес- 
ких исследований. Обычно в результате подобных исследований выясняется, что вре- 
мя выполнения мало меняется, если М принимает 
значения в диапазоне примерно от 5 до 25, при этом 
значение времени выполнения, когда М попадает в 
этот диапазон, отличается от значения этого показате- 
ля при естественном выборе Л/=1 не более, чем на 10 
процентов (см. рис. 7. 8). 

Несколько более простой и чуть более эффектив- 
ный по сравнению с сортировкой вставками способ 
обращения с подфайлами небольших размеров по 
мере их появления состоит в том, чтобы поменять про- 
верку в начале программы на 

(г-1 <= М) геѣигп; 

Другими словами, в процессе разделения неболь- 
шие подфайлы просто игнорируются. В условиях нере- 
курсивной реализации это можно сделать, отказавшись 
от помещения в стек любых файлов с размерами 
меньшими Л/, либо игнорируя все файлы с размерами 
меньшими М , которые будут обнаруживаться в стеке. 

По окончании операции разделения получается прак- 
тически отсортированный файл. При этом, как уже от- 
мечалось в разделе 6.5, метод вставок является наилуч- 
шим методом сортировки подобного рода файлов. То 
есть, сортировка вставками работает с таким файлом 



1 

М = 9 


РИСУНОК 7.8. ОТСЕЧЕНИЕ 
ФАЙЛОВ МАЛЫХ РАЗМЕРОВ 

Выбор оптимального значения 
размера в целях отсечения 
небольших файлов приводит к 
уменьшению среднего времени 
выполнения сортировки на 10 
процентов. Выбор точного 
значения не критичен; значения 
этого показателя в достаточно 
широких пределах 
(приблизительно от 5 до 20) 
дает практически одинаково 
хорошие результаты для 
большей части приложений. 
Жирная ломаная линия ( сверху) 
получена эмпирическим путем; 
тонкая линия (снизу) была 
рассчитана аналитически. 
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почти так же хорошо, как и с совокупностью файлов небольших размеров, когда они 
подвергаются сортировке вставками непосредственно. При использовании данного 
метода следует соблюдать осторожность, ибо сортировка вставками скорее всего бу- 
дет работать, даже если алгоритм быстрой сортировки содержит фатальную ошибку, 
из-за которой эта сортировка просто функционировать не будет. Только резкое воз- 
растание затрат ресурсов может служить сигналом о том, что что-то не в порядке. 

Рисунок 7.9 иллюстрирует этот процесс на примере крупного файла. Даже при 
сравнительно радикальном отсечении файлов небольших размеров та часть програм- 
мы, которая выполняет быструю сортировку, выполняется быстро, поскольку в про- 
цесс разделения вовлечено относительно небольшое количество элементов. Сортиров- 
ка вставками, завершающая выполнение программы, также выполняется быстро, 
поскольку на обработку ей передается почти упорядоченный файл. 

Этот метод с большой пользой можно применять всякий раз, когда мы имеем дело 
с рекурсивным алгоритмом. В силу особенностей рекурсивных алгоритмов можно 
быть уверенным в том, что все они основную часть своего времени будут заняты ре- 
шением небольших задач; в любом случае для работы с небольшими файлами в на- 
шем распоряжении имеются алгоритмы "решения в лоб" с низкими непроизводитель- 
ными затратами. Благодаря такому обстоятельству в общем случае можно улучшить 
общие показатели производительности с помощью гибридных алгоритмов. 

Упражнения 

7 . 21 . Нужны ли служебные ключи, если сортировка вставками вызывается непос- 
редственно из быстрой сортировки? 

7 . 22 . Снабдить программу 7.1 инструментальными средствами, которые позволили 
бы подсчитать процент операций сравнения при разбиении файлов, размеры ко- 
торых не превосходят 10, 100 и 1000 элементов, и вывести на печать значения, 
которые принимают это процентное отношение для случаев сортировки файлов с 
произвольной организацией, состоящих из N элементов для N = ІО 3 , 10 4 , ІО 5 и ІО 6 . 

о 7.23. Реализовать рекурсивный вариант быстрой сортировки с отсечением для сор- 
тировки вставками подфайлов, размеры которых не превышают М элементов, и 
эмпирически определить значения М , при которых программа достигает макси- 
мального быстродействия в вашей вычислительной среде при сортировке файлов 
с произвольной организацией, состоящих из N элементов для ІО 3 , ІО 4 , ІО 5 и ІО 6 . 

7 . 24 . Решить задачу, сформулированную в упражнении 7.23, воспользовавшись не- 
рекурсивной реализацией. 

7 . 25 . Решить задачу, сформулированную в упражнении 7.23, для случая, когда сор- 
тируемые записи содержат а ключей и Ъ указателей на другую информацию (но мы 
не используем сортировку по указателям). 

• 7 . 26 . Написать программу, которая вычерчивает гистограмму (см. программу 3.7) 
для размеров подфайлов, передаваемых в сортировку вставками, при выполнении 
сортировки файла размером N с отсечением подфайлов с размерами, не превы- 
шающими М. Выполнить эту программу для М = 10, 100 и 1000 и N = ІО 3 , 10 4 , ІО 5 
и ІО 6 . 
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РИСУНОК 7.9. СРАВНЕНИЯ В БЫСТРОЙ СОРТИРОВКЕ 

Подфайлы в условиях быстрой сортировки обрабатываются независимо друг от друга. На этой 
диаграмме показан результат разбиения каждого подфайла в процессе сортировки 200 элементов с 
отсечением файлов размером 15 и меньше. Получить приближенное представление об общем числе 
сравнений можно, сосчитав количество отмеченных элементов в вертикальных столбцах. В 
рассматриваемом случае каждая позиция массива во время сортировки вовлекается только в шесть 
или семь подфайлов. 
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7.27. Проведите эмпирические исследования с целью определения среднего раз- 
мера стека, используемого при быстрой сортировке с отсечением подфайлов с раз- 
мерами, не превышающими Л/, для сортировки файла с произвольной организа- 
цией, состоящего из N элементов, причем М — 10, 100 и 1000 и УѴ=10 3 , 10 4 , ІО 5 и ІО 6 . 

7.5 Метод разделения с вычислением 

медианы из трех элементов 

Еще одно усовершенствование метода быстрой сортировки заключается в исполь- 
зовании такого разделяющего элемента, который с достаточно большой вероятнос- 
тью делил бы файл вблизи его середины. Наиболее безопасный выбор, минимизиру- 
ющий вероятность возникновения наихудшего случая, состоит в использовании в 
качестве разделяющего элемента случайного элемента массива. Тогда вероятность 
возникновения наихудшего случая становится ничтожно малой. Этот метод представ- 
ляет собой пример вероятностного алгоритма (ргоЬаЫІШіс аІ^огИИт) — такого алгорит- 
ма, который использует случайный характер величин для достижения высокой эф- 
фективности с большой вероятностью, независимо от степени упорядоченности 
входных данных. Далее в этой книге мы столкнемся с многочисленными примера- 
ми использования свойства случайности при разработке структуры алгоритмов, в ча- 
стности, когда предполагается наличие той или иной тенденции во входных данных. 
На практике использование в рамках быстрой сортировки генератора случайных чи- 
сел с этой целью может оказаться излишним: простой произвольный выбор оказыва- 
ется достаточно эффективным. 

Другой хорошо известный способ нахождения подходящего разделяющего элемен- 
та заключается в том, что производится выборка трех элементов из файла, затем в 
качестве разделяющего элемента используется медиана из этих трех элементов. Вы- 
бирая для такой цели три элемента из левой части, из середины и из правой части 
массива, можно также включить в эту схему служебные метки: сначала сортируем три 
выбранных элемента (с использованием метода трех обменов, описанного в главе 6), 
затем меняем местами элемент из середины с элементом а[г-1], далее выполняем 
алгоритм разделения на элементах а[1+1],...а[г-2]. Приведенное усовершенствование 
получило название метода медианы из трех элементов (тесІіап-о/-!Игее ) . 

Метод медианы из трех элементов повышает эффективность сортировки по трем 
направлениям. Во-первых, он существенно снижает вероятность возникновения наи- 
худшего случая для любой реальной сортировки. Чтобы сортировка выполнялась за 
время, пропорциональное N 2 , два из трех проверяемых элементов должны быть в 
числе наибольших и наименьших элементов файла, и это событие должно последо- 
вательно повторяться во время большей части процессов разделения. Во-вторых, он 
устраняет необходимость в служебном ключе в процессе разделения, поскольку для 
выполнения этой функции вполне достаточно одного элемента из числа тех, которые 
подвергаются проверке до начала разделения. В-третьих, он уменьшает среднее вре- 
мя выполнения алгоритма примерно на 5 процентов. 

Сочетание использования метода медианы из трех элементов с отсечением под- 
файлов небольших размеров может уменьшить среднее время выполнения быстрой 
сортировки по сравнению с аналогичным показателем естественной рекурсивной 
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сортировки на 20—25 процентов. Программа 7.4 пред- 
ставляет собой реализацию, в которой применены все 
упомянутые усовершенствования. 

Можно рассмотреть и другие способы совершен- 
ствования программы: отказ от рекурсии, замена 
вызовов подпрограмм встроенными кодами, исполь- 
зование служебных меток и т.п. Однако в современ- 
ных машинах такие вызовы процедур обычно эф- 
фективны и они не включаются во внутренние 
циклы. Что более важно, применение отсечения под- 
файлов небольших размеров во многих случаях по- 
зволяют скомпенсировать возможные непроизводи- 
тельные затраты (за пределами внутреннего цикла). 
Главные аргументы в пользу нерекурсивных реали- 
заций с явно определенным стеком заключаются в 
том, чтобы получить гарантии, что можно Іюльзо- 
ваться стеками ограниченных размеров (см. рис. 

7.10). 

Возможно дальнейшее улучшение алгоритма (на- 
пример, можно использовать медиану из пяти или 
большего числа элементов), однако величина сэко- 
номленного времени для файлов с произвольной 
организацией незначительна. Мы можем получить 
большую экономию времени за счет кодирования 
внутренних циклов или всей программы на языке 
ассемблера или на машинном языке. Эти выводы 
были многократно подтверждены специалистами на 
примерах солидных приложений сортировок {см. раз- 
дел ссылок). 

Для файлов с произвольной организацией первый 
обмен, выполняемый программой 7.4, излишний. Мы 
включили его в программу не только из-за того, что 
он обеспечивает оптимальное разделение для уже 
упорядоченных файлов, но еще и потому, что оно 
служит защитой от нештатных ситуаций, могущих 
возникнуть на практике (см. например, упражнение 
7.33). Рисунок 7.11 иллюстрирует эффективность ис- 
пользования среднего элемента в процессе выбора раз- 
деляющего элемента для различных типов файлов. 

Метод медианы из трех элементов представляет 
собой специальный случай общей идеи, заключаю- 
щейся в том, что для файла неизвестного типа мож- 
но произвести выборку и использовать свойства по- 
лученной выборочной совокупности, чтобы дать 
оценку всему файлу. 



РИСУНОК 7.10. РАЗМЕРЫ СТЕКОВ 
ДЛЯ УЛУЧШЕННЫХ ВАРИАНТОВ 
БЫСТРОЙ СОРТИРОВКИ 

Сортировка меньше го из 
подфайлов , образовавшихся в 
результате разделения, первым, 
гарантирует, что размер стека в 
худшем случае находится в 
логарифмической зависимости от 
размера исходного файла. На 
диаграмме отображены размеры 
для тех же файлов, что и 
представленные на рис. 7.5, при 
этом в трех первых случаях 
( слева) применяется метод 
сортировки меньшего подфайла 
первым, в остальных трех случаях 
(справа) к этому еще добавляется 
метод медианы трех. По этим 
диаграммам трудно судить о 
времени выполнения; этот 
показатель зависит от размера 
файлов в стеке, а не от их числа . 
Например, третий файл 
(частично отсортирован) не 
требует большого стекового 
пространства, однако вызывает 
замедление сортировки, поскольку 
размеры обрабатываемых 
подфайлов большие. 




РИСУНОК 7.11. ДИНАМИЧЕСКИЕ ХАРАКТЕРИСТИКИ БЫСТРОЙ СОРТИРОВКИ С ВЫЧИСЛЕНИЕМ 
МЕДИАНЫ ИЗ ТРЕХ ЭЛЕМЕНТОВ НА ФАЙЛАХ РАЗЛИЧНЫХ ТИПОВ. 

Модификация быстрой сортировки , предусматривающая вычисление медианы из трех элементов 
(в частности , с использованием среднего элемента) обеспечивает приличные результаты в плане, 
придания процессу разделения большей устойчивости. Особенно хорошо этот метод проявляет себя 
при сортировке вырожденных файлов, показанных на рис. 7.4. Другой вариант, позволяющий достичь 
тех же целей, — использование случайного разделяющего элемента. 
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Для быстрой сортировки мы хотим получить оценку медианы, чтобы решить, как 
проводить процедуру разделения. Свойство этого алгоритма заключается в том, что 
нам не нужна особо точная оценка (мы вообще можем обойтись без такой оценки, 
если стоимость ее вычисления высока); мы просто хотим избежать исключительно 
плохой оценки. Если используется случайная выборка из одного элемента, получается 
рандомизированный алгоритм, который виртуально обладает высоким быстродей- 
ствием, независимо от природы входных данных. Если произвести случайную выбор- 
ку из файла из трех или из пяти элементов, а затем воспользоваться медианой из этой 
выборки в процедуре разделения, получится лучшее разбиение, но такое усовершен- 
ствование достигается ценой выполнения выборки. 

Программа 7.4. Улучшенная быстрая сортировка 

Выбор медианы из первого, среднего и концевого элементов в качестве разделя- 
ющего элемента и отсечение рекурсии меньших подфайлов может привести к су- 
щественному повышению эффективности быстрой сортировки. Данная реализация 
осуществляет разделение по медиане из первого, среднего и концевого элементов 
массива (не следует использовать эти элементы в процессе разделения для других 
целей). Файлы длиной 11 и меньше в процессе разделения игнорируются; затем для 
окончания сортировки используется команда іпвегііоп из главы 6. 

віаііс сопзі іпі М = 10; 

Іетріаіѳ <с1азз І1ет> 

ѵоі<і фіігіскзогі (Нет а[] , іпі 1, іпі г) 

{ 

(г-1 <= М) гѳіигп; 
ехсЬ (а [ (1+г) /2] , а[г-1]); 
сотехсЬ (а [1] , а[г-1]); 
сотехсЬ (а [1] , а [г]); 
сотехсЪ (а [г-1] , а[г]); 
іпі: і в рагііііоп (а, 1+1, г-1) ; 
фіісіскзогі (а , 1, і-1) ; 

фіісіскзогі (а, і+1, г); 

} 

Іетріаіе <с1азз І1ет> 

ѵоігі. ЬуЪгісізогІ (Нет а[] , іпі 1, іпі г) 

{ фіісіскзогі (а, 1, г); іпзвг!іоп(а, 1, г); } 


Быстрая сортировка нашла широкое применение в связи с тем, что она успешно 
протекает в различных ситуациях. Другие методы хорошо работают в некоторых спе- 
циальных случаях, которые время от времени встречаются на практике, но быстрая 
сортировка успешно решает гораздо большее число сортировочных задач, чем это 
можно сделать с применением других методов, а ее быстродействие зачастую гораз- 
до выше, чем в условиях применения альтернативных подходов. В табл. 7.1 представ- 
лены эмпирические результаты, которые могут служить подтверждением некоторых 
из сделанных выше выводов. 

Таблица 7.1. Эмпирическое исследование алгоритмов быстрой сортировки 

Быстрая сортировка (программа 7.1) работает примерно в два раза быстрее, чем 
сортировка методом Шелла (программа 6.6). Совершенствование метода отсечения 
меньших подфайлов и метода медианы из трех элементов (программа 7.4) сокра- 
щают время выполнения сортировки примерно на 10 процентов каждое. 
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N 

Метод 

Шелла 

Быстрая сортировка 

Быстрая сортировка 
с вычислением 

медианы из трех элементов 

М = 0 

М= 10 

II 

го 

о 

М = 0 

М= 10 

II 

го 

о 

12500 

6 

2 

2 

2 

3 

2 

3 

25000 

10 

5 

5 

5 

5 

4 

6 

50000 

26 

11 

10 

10 

12 

9 

14 

100000 

58 

24 

22 

22 

25 

20 

28 

200000 

126 

53 

48 

50 

52 

44 

54 

400000 

278 

116 

105 

110 

114 

97 

118 

800000 

616 

255 

231 

241 

252 

213 

258 


Упражнения 

7.28. Наша реализация метода медианы из трех элементов тщательно следит за 
тем, чтобы элементы, составляющие выборку, не принимали участия в процессе 
разделения. Одна из причин заключается в том, что они могут быть использова- 
ны в качестве служебных меток. Назовите другие причины. 

7.29. Реализовать быструю сортировку на базе разделения по медиане случайной 
выборки из файла, содержащей пять элементов. Элементы выборочной совокуп- 
ности не должны принимать участия в разделении (см. упражнение 7.28). Сравните 
эффективность вашего алгоритма с эффективностью метода медианы из трех эле- 
ментов на примерах крупных файлов с произвольной организацией. 

7.30. Выполните программу из упражнения 7.29 на крупных файлах со специаль- 
ной организацией — например, отсортированные файлы, файлы, упорядоченные 
в обратном порядке или файлы с одинаковыми ключами элементов. Насколько ее 
эффективность при сортировке указанных файлов отличается от эффективности, 
полученной для файлов с произвольной организацией? 

••7.31. Реализовать быструю сортировку с использованием выборочных совокупно- 
стей размером 2 к — Сначала выполнить сортировку выборочной совокупности, 
затем выполнить рекурсивную программу, осуществляющую разделение с исполь- 
зованием медианы из элементов выборочной совокупности, и поместить обе по- 
ловины оставшейся части выборочной совокупности в каждый подфайл таким об- 
разом, чтобы они могли быть использованы в этих подфайлах без дальнейшей 
сортировки. Такой метод сортировки называется сортировкой методом случайной 
выборки (затріезогі) . 

•• 7.32. Выполнить эмпирические исследования, чтобы определить наилучший раз- 
мер выборочной совокупности для сортировки методом случайной выборки (см. 
упражнение 7.31) для N — ІО 3 , ІО 4 , ІО 5 и ІО 6 . Имеет ли значение, какой вид сорти- 
ровки используется для упорядочения выборочной совокупности: быстрая сорти- 
ровка или сортировка методом случайной выборки ($атр1е$огІ)? 

• 7.33. Показать, что если внести изменения в программу 7.4, предусматривающие 
исключение первой операции обмена и пропуск ключей, равных разделяющему 
элементу, то время выполнения сортировки файла, организованного в обратном 
порядке, находится в квадратичной зависимости от длины файла. 
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7.6. Дублированные ключи 

Файлы с большим числом дублированных сортируемых ключей довольно часто 
встречаются в различных приложениях. Например, может потребоваться сортировка 
большого файла с персональными данными по году рождения или, скажем, сортиров- 
ка для деления персонала по половому признаку. 

Когда в сортируемом файле имеется множество дублированных ключей, нельзя со 
всей определенностью утверждать, что рассмотренные нами различные реализации 
быстрой сортировки показывают недопустимо низкую эффективность, однако их 
можно существенно улучшить. Например файл, который состоит исключительно из 
равных один другому ключей (одно и то же значение), вовсе не нуждается в дальней- 
шей сортировке, однако наши реализации продолжают процесс разделения, подвер- 
гая обработке все более мелкие подфайлы независимо от того, насколь большим яв- 
ляется исходный файл (см. упражнение 7.8). В ситуации, когда во входном файле 
присутствует большое число дублированных ключей, рекурсивная природа быстрой 
сортировки приводит в тому, что подфайлы, содержащие только элементы с одним и 
тем же ключом, встречаются довольно часто, благодаря чему существуют большие 
потенциальные возможности для совершенствования алгоритма сортировки. 

Одйа достаточно простая идея заключается в делении файла на три части, одна — 
для ключей, меньших разделяющего элемента, другая — для ключей, равных ему, и 
третья — для ключей, больших разделяющего элемента: 


меньше чем ѵ 


равные ѵ 


больше чем ѵ 


♦ 

1 


♦ 


♦ 


♦ 


Выполнение такого разбиения намного сложнее, чем разбиение на две части, ко- 
торым мы пользовались ранее. Были предложены различные методы решения этой 
задачи. Классическим упражнением по программированию, получившим широкую 
известность с легкой руки Дейкстры (Оукзіга), стала Задача голландского националь- 
ного фііага, и прежде всего из-за того, что три возможных категорий ключей могут 
соответствовать трем цветам флага (ОиІсЬ N3110031 Р1а§ ргоЫегп) (см. раздел ссылок). 
В рамках быстрой сортировки мы добавляем еще одно ограничение» заключающее- 
ся в том, что эта задача должна быть решена за один проход по файлу — алгоритм, 
который предусматривает два прохода по данным, замедлит быструю сортировку в 
два раза, даже если в исходном файле вообще не будет дублированных ключей. 

Оригинальный метод, предложенный Бентли (Вепііеу) и Макилроем (МсІІгоу) в 
1993 г. для разбиения файла на три части, представляет собой модификацию стандар- 
тной схемы разделения и предусматривает следующее: ключи, равные разделяюще- 
му элементу и встретившиеся в левом подфайле, накапливаются в левом конце фай- 
ла, ключи, равные разделяющему элементу и встретившиеся в правом подфайле, 
накапливаются в правом конце файла. Во время выполнения процесса разделения мы 
придерживаемся следующей схемы: 


равен 

меньше 

• •• • • . •••••• 
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Далее, когда указатели пересекутся и точное мес- 
тонахождение равных ключей станет известным, мы 
перемещаем в эту позицию все элементы с ключами, 
равными разделяющему элементу. Эта схема не со- 
всем удовлетворяет требованию, чтобы разбиение 
файла на три части было завершено за один проход, 
однако непроизводительные расходы системных ре- 
сурсов пропорциональны только количеству обнару- 
женных дублированных ключей. Этот факт обусловли- 
вает две особенности: во-первых, этот метод работает 
хорошо, даже если в исходном файле вообще нет дуб- 
лированных ключей, поскольку в этом случае непро- 
изводительные затраты отсутствуют. Во-вторых, для 
этого метода характерна линейная зависимость вре- 
мени выполнения от длины файла при постоянном 
числе значений ключей: каждая фаза разделения ис- 
ключает из процесса сортировки все ключи со значе- 
ниями, равными значению разделяющего элемента, 
так что каждый ключ может быть использован макси- 
мум при постоянном числе разделений. 

Рисунок 7.12 служит иллюстрацией работы алго- 
ритма разбиения на три части на примере учебного 
файла, а программа 7.5 содержит реализацию быстрой 
сортировки, в основу которой положен этот метод. 
Рассматриваемая реализация требует добавления двух 
операторов іГ в цикл обмена и двух циклов Гог с тем, 
чтобы процедура разделения завершалась помещени- 
ем ключей, равных разделяющему элементу, в окон- 
чательные позиции. По-видимому, на это потребует- 
ся меньше программного кода, чем в случае других 
альтернатив разделения файла на три части. И что 
более важно, этот метод не только исключительно 
эффективно решает проблему дублированных клю- 
чей, но и привносит минимально возможный объем 
непроизводительных затрат в случае, когда в исход- 
ном файле вообще нет дублированных ключей. 

Программа 7.5. Быстрая сортировка 
с разделением на три части 
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РИСУНОК 7.12. РАЗДЕЛЕНИЕ НА 
ТРИ ЧАСТИ 

Эта диаграмма описывает 
процесс установки ключей , 
равных разделяющему элементу , 
в окончательные позиции . Как и 
в случае рис. 7.2, просмотр 
начинается слева с целью 
обнаружить элемент, который 
не меньше разделяющего 
элемента, и справа с целью 
обнаружить элемент, который 
не больше разделяющего 
элемента, затем они меняются 
местами. Если после обмена 
элемент слева равен 
разделяющему элементу, он 
меняется местами с левым 
крайним элементом массива; то 
же самое проделывается и 
справа. Когда указатели 
пересекутся, разде^^яющий 
элемент помещается в ту же 
позицию, в которой он находился 
раньше (предпоследняя строка), 
а затем все ключи, равные ему, 
ставятся рядом с ним с любой 
стороны (нижняя строка). 


В основу программы положено разделение массива на три части: на элементы, 
меньшие разделяющего элемента (в позиции а[1],..., аЦ]), элементы, равные раз- 
деляющему элементу (в позиции аЦ+1],..., а[М]), и элементы большие разделя- 
ющего элемента (в позиции а[г]). После этого сортировка завершается дву- 

мя рекурсивными вызовами. 

Чтобы достичь поставленной цели, программа содержит ключи, равные разделяю- 
щему элементу, слева между I и ц и справа между я и г. В разделяющем цикле, ког- 
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да указатели просмотра перестают изменяться и выполняется обмен значениями і 
и і, она проверяет каждый из этих элементов на предмет равенства разделяюще- 
му элементу. Если элемент, который сейчас находится слева, равен разделяющему 
элементу, то при помощи операции обмена он помещается в левую часть масси- 
ва; если элемент, который сейчас находится справа, равен разделяющему элементу, 
то в результате операции обмена он помещается в правую часть массива. 

После того как указатели пересекутся, элементы, равные разделяющему элементу 
и находящиеся на разных концах массива, после операции обмена попадают в свои 
окончательные позиции. После этого указанные ключи могут быть исключены из 
подфайлов, для которых выполняются последующие рекурсивны» вызовы. 

Ьетріаѣе <с1азз І1:ет> 

іп Ь орега”Ьог= (сопзЪ Ііет &А, сопзЪ Ііет &В) 

{ геЪигп !1езз(А, В) && !1езз(В, А); } 

ЬетрІаЬѳ Ссіазз ІЬет> 

ѵоісі фдіскзогѣ (Нет а [ ] , 1, іпЬ г) 

{ іпЬ к; Нет ѵ = а[г]; 

(г <= 1) геЪигп; 

іп*Ь і = 1-1/ э = г, р = 1-1/ = г; 

^ог ( ; ; ) 

{ 

ѵЬіІе (а[++і] < ѵ) ; 

ѵЬіІе (ѵ < а[ — Л) і* (;) == 1) Ьгеак; 
іі: ( і >= Л Ьгеак; 
ехсЬ (а [і] ,а [ Л ) ; 

і* (а [і] == ѵ) { р++; ехсЬ (а [р] ,а [і] ) ; } 

і* (ѵ «= а [Л) { я--; ехсЬ (а [я] ,а[Л) ; > 

} 

ехсЬ (а [і] / а [г]); э = і-1; і = і+1; 

^ог (к = 1 ; к <= р; к++, і — ) ехсЬ (а [к] , а [ Л ) ; 

^ог (к = г-1; к >= к — , і++) ехсЬ (а [к] , а [і] ) ; 

диіскзогЬ (а, 1, э) ; 
фііскзогЬ (а, і, г) ; 

} 


Упражнения 

о 7 . 34 . Дайте объяснения тому, что происходит, когда программа 7.5 выполняется на 
файле с произвольной организацией (/) с двумя различными значениями ключей 
и (/У) с тремя различными значениями ключей. 

7 . 35 . Изменить программу 7.1 таким образом, чтобы она выполняла команду 
геіигп, если все ключи в подфайле одинаковы. Сравните эффективность получен- 
ной программы с эффективностью программы 7.1 на больших файлах с произ- 
вольной организацией с ключами, принимающими / различных значений при 
і = 2, 5 и 10. 

7 . 36 . Предположим, в программе 7.2 вместо того, чтобы остановить просмотр с 
целью нахождения ключей, равных разделяющему элементу, при обнаружении та- 
кого ключа он пропускается. Показать, что в таком случае время выполнения про- 
граммы 7.1 подчиняется квадратичной зависимости. 

• 7 . 37 . Доказать, что время выполнения программы из упражнения 7.37 пропорци- 
онально квадрату длины файлов для всех файлов с 0(1) различных значений клю- 
чей. 
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7.38. Написать программу, определяющую количество различных ключей, которые 
встречаются в файле. Воспользуйтесь полученной программой для подсчета числа 
различных ключей в файле с произвольной организацией, состоящего из N целых 
чисел, принимающих значения в диапазоне от 0 до М~ 1 для М - 10, 100 и 1000 
и для N = 10 3 , ІО 4 , ІО 5 и ІО 6 . 

7.7 Строки и векторы 

Когда сортировочными ключами служат строки, мы можем пользоваться реализа- 
цией типов данных, подобных программе 6.11, совместно с реализациями быстрой 
сортировки, рассматриваемыми в настоящей главе. Несмотря на то что такой подход 
позволяет получить корректную и эффективную реализацию (обладающую при работе 
с крупными файлами большим быстродействием, чем удавалось получить до сих пор), 
имеют место скрытые издержки, которые заслуживают того, чтобы на них остано- 
виться подробнее. 

Проблема заключается в стоимости функции §ігстр, которая сравнивает две стро- 
ки в направлении слева направо, сопоставляя строки символ за символом, затрачи- 
вая на это время, пропорциональное количеству символов, совпадающих в начале 
обоих строк. На заключительных стадиях процесса разделения быстрой сортировки, 
когда ключи близки друг к другу по значению, почти вся стоимость алгоритмов со- 
средоточена в его завершающих стадиях, так что исследование с целью совершенство- 
вания алгоритма вполне оправдано. 

Например, рассмотрим подфайл размером 5, содержащий ключи ёі8сгееі, ёівсгеёіі, 
ёі8сге*е, ёівсгерапсу и ёІ8сгеІіоп. Все сравнения, выполненные с целью сортировки 
этих ключей, исследуют по меньшей мере семь символов, но в рассматриваемом слу- 
чае можно было начать просмотр с седьмого символа, если бы была доступной допол- 
нительная информация, фиксирующая тот факт, что первые шесть символов совпа- 
дают. 

Процедура разделения файла на три части, которая рассматривалась в разделе 7.6, 
представляет собой элегантный способ извлечь пользу из отмеченного выше факта. 
На каждой стадии процесса разделения проверяется только один символ (скажем, 
символ в позиции ё), предполагая; что ключи, занимающие позиции от 0 до ё-1 и под- 
лежащие сортировке, совпадают. Мы выполняем разделение на три части, помещая 
те ключи, ё-й символ которых меньше ё-го символа разделяющего элемента, слева, 
те ключи, ё-й символ которых равен ё-му символу разделяющего элемента, в сере- 
дине, а те ключи, ё-й символ которых больше ё-го символа разделяющего элемента, 
справа. Далее мы выполняем обычные действия за исключением того, что мы сорти- 
руем средний подфайл, начиная с ё+1-го символа. Нетрудно видеть, что этот метод 
обеспечивает корректную сортировку и к тому же обладает исключительно высокой 
эффективностью (см. табл. 7.2). В данном случае мы получаем убедительный пример 
неограниченных возможностей рекурсивного мышления (и программирования). 

Для реализации этого вида сортировки требуется тип данных с более высоким 
уровнем абстракции, который мог бы обеспечить доступ к отдельным символам клю- 
чей. Возможности по манипулированию строками, коими обладает язык С++, дела- 
ет подобную реализацию исключительно простой. Тем не менее, мы отложим обсуж- 
дение деталей этой реализации до главы 10, в которой рассмотрим различные методы 
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сортировки, использующие то обстоятельство, что сортировочные ключи легко раз- 
лагаются на более мелкие части. 

Таблица 7.2. Эмпирическое исследование вариантов быстрой сортировки 

В этой таблице представлена относительная стоимость нескольких различных вари- 
антов быстрой сортировки на примере упорядочения первых N слов из книги МоЬу 
О/с/с. Непосредственное использование метода вставки для сортировки небольших 
подфайлов или игнорирование небольших подфайлов с последующей сортировкой 
того же файла методом вставки потом — суть стратегии, обеспечивающие один и 
тот же уровень эффективности, но в то же время экономия расходов, достигаемая 
за счет реализации обоих стратегий несколько ниже, чем для целочисленных клю- 
чей (см. табл. 7.1), поскольку стоимость операции сравнения строк влечет большие 
издержки. Если во время разбиения файлов просмотр не останавливается на дуб- 
лированных ключах, то время сортировки файла, у которого все ключи одинаковы, 
подчиняется квадратичной зависимости; низкая эффективность проявляется в этом 
примере в связи с тем, что существует множество слов, которые встречаются в дан- 
ных довольно часто. По той же причине разделение на три части обеспечивает вы- 
сокий уровень эффективности сортировки; она на 30-35 процентов быстрее систем- 
ной сортировки. 


N 

V 

1 

М 

О 

X 

Т 

12500 

8 

7 

6 

10 

7 

6 

25000 

16 

14 

13 

20 

17 

12 

50000 

37 

31 

31 

45 

41 

29 

100000 

91 

78 

76 

103 

113 

68 


Обозначения: 

V Быстрая сортировка (программа 7.1). 

I Сортировка вставками для подфайлов небольших размеров. 

М Файлы небольших размеров игнорируются, завершающая сортировка вставками. 

О Системная сортировка язоіі. 

X Пропускаются дублированные ключи (квадратичная зависимость в случае, 

когда все ключи одинаковы). 

Т Разделение на три части (программа 7.5). 


Этот подход распространяется на многомерные сортировки, в условиях которых 
в качестве ключей выступают векторы, а записи должны быть переупорядочены та- 
ким образом, что сначала файл упорядочивается по первой компоненте, затем записи 
с равными первыми компонентами ключей упорядочиваются по второй компоненте 
и так далее. Если компоненты не имеют дублированных ключей, проблема сводится 
у сортировке по первой компоненте; однако в обычном случае каждая из компонент 
может принимать одно из нескольких различных значений, и вполне оправдан пере- 
ход к разбиению на три части (переход к следующей компоненте в среднем разделе). 
Этот случай Хоар рассматривал в своей первой статье, он представляет собой важное 
практическое приложение. 
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Упражнения 

7.39. Рассмотреть возможность усовершенствования сортировки выбором, встав- 
ками, пузырьковой сортировки и шейкер-сортировки применительно к строкам. 

о 7.40. Сколько символов проверяются в рамках стандартного алгоритма быстрой 
сортировки (программа 7.1, использующая строковый тип из программы 6.11) при 
сортировке файла, состоящего из N строк длиной /, при этом все строки одинако- 
вы? Дать ответ на тот же вопрос применительно к модификации, предложенной 
в тексте. 

7.8. Выборка 

Одно из важных приложений, имеющее отношение к сортировке, но не требую- 
щее сортировки в полном объеме, является операция нахождения медианы из неко- 
торого множества данных. В статистических, а также в других приложениях обработ- 
ки данных, это весьма распространенный вид вычислений. Один из способов 
решения этой задачи заключается в том, что числа подвергаются сортировке, затем 
выбирается число из середины, но можно поступить еще лучше, воспользовавшись 
процессом разделения быстрой сортировки. 

Операция нахождения медианы представляет собой частный случай операции вы- 
борки ( зеіесііоп ): нахождения &-го наименьшего числа в заданном наборе чисел. По- 
скольку сам алгоритм не может дать гарантии, что конкретный элемент — суть к- й 
наименьший, если не проверит и не распознает к - 1 элементов, которые меньше к , 
и 7 V — к элементов, которые больше к , большая часть алгоритмов может возвратить 
все к наименьших элементов исходного файла без каких-либо дополнительных вы- 
числений. 

Операция выборки часто применяется при обработке экспериментальных и дру- 
гих видов данных. Широко практикуется использование медианы и других показа- 
телей порядковой статистики ( огдег зШізіісз) для деления файла на меньшие части. 
Нередко для дальнейшей обработки запоминается только некоторая часть большого 
файла; в таких случаях программа, способная выбрать, скажем, 10 процентов наи- 
больших элементов файла, может оказаться предпочтительнее, чем сортировка в пол- 
ном объеме. Другим важным примером можно считать использование разделения 
вокруг медианы в качестве первой стадии многих алгоритмов типа "разделяй и вла- 
ствуй". 

Мы уже рассматривали алгоритм, который может быть приспособлен непосред- 
ственно для выборки. Если к исключительно мало, то сортировка выбором (см. гла- 
ву 6) будет работать хорошо, требуя для своего выполнения время, пропорциональ- 
ное N к: сначала находим первый наименьший элемент, затем второй наименьший, 
равный наименьшему из оставшихся элементов после первого выбора, и так далее. 
Для несколько большего к мы найдем описание методов в главе 9, эти методы мож- 
но настроить таким образом, что время их выполнения окажется пропорциональным 
N Іо %к. 

Метод выборки, время выполнения которого в среднем линейно для всех значе- 
ний к , следует непосредственно из процедуры разделения, используемой в быстрой 
сортировке. Напомним, что метод разделения, используемый в быстрой сортировке, 
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переупорядочивает массив а[1],...,а[г] и возвра- 
щает целое і такое, что элементы от а[1] до а[і- 
1] меньше или равны а[і], а элементы от а[і+1] 
до а[г] больше или равны а[і]. Если к равно і, то 
задача решена. С другой стороны, если к < 1, 
следует продолжать работу на левом подфайле; 
если к > і, работу необходимо продолжать на 
правом подфайле. Подобный подход прямо вы- 
водит на рекурсивную программу выборки, ка- 
ковой является программа 7.6. Пример работы 
этой процедуры на файле небольших размеров 
показан на рис. 7.13. 

Программа 7.6. Выборка 

Данная процедура производит разделение мас- 
сива относительно (к-І)-го наименьшего эле- 
мента (элемент в а[к]): она переупорядочивает 
массив таким образом, что а[1],...,а[к-1] 
меньше или равны а[к], а а[к+1],...,а[г] боль- 
ше или равны а[к]. 

Например, можно вызвать аеІесі(а,0,Ы-1 ,N/2) с 
целью разделения массива по значению меди- 
аны, оставляя медиану в а[Ы/2]. 

ЬѳтрІаЬе Ссіазз ІЬет> 
ѵоісі зѳіѳсЬ (Н ет а [ ] , іпЬ 1, іп’Ь г, 
іпЬ к) 

{ 

іі? (г <= 1) гѳѣигп; 

іп’Ь і = рагѣі’Ьіоп (а, 1, г) ; 

іі? (і > к) зе1есЬ(а, 1, і-1, к) ; 

і* (і < к) зѳ1ѳсЬ(а, ±+1, г, к); 

} 
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РИСУНОК 7.13. ВЫБОРКА МЕДИАНЫ 

Чтобы найти медиану из ключей, в 
рассматриваемом примере сортировка, 
использующая метод разделения, 
выполняет три рекурсивных вызова. Во 
время первого вызова отыскивается 
восьмое наименьшее число в файле из 15 
элементов, в то время как разделение 
позволяет получить четвертое 
наименьшее (Е); во втором вызове 
ищется четвертое наименьшее число в 
файле из 11 элементов и разделение 
дает восьмое наименьшее (К), далее, в 
третьем вызове ищется четвертое 
наименьшее число в файле размером 7, 
которым будет (М). Файл 
переупорядочен теперь таким образом, 
что медиана занимает окончательное 
место, элементы, меньшие медианы по 
значению, сосредоточены слева от нее, 
элементы, большие нее по значению — 
справа от нее (элементы, равные 
медиане, могут быть помещены с любой 
ее стороны), однако окончательный 
порядок в файле еще не установлен. 


Программа 7.7. Нерекурсивная выборка 

Нерекурсивная реализация выборки просто строит раздел, затем помещает левый 
указатель в раздел, если этот раздел оказывается слева от искомой позиции, или 
помещает правый указатель в раздел, если раздел оказывается справа от искомой 
позиции. 

ѣетрІа'Ьѳ <с1азз ІЬѳт> 

ѵоісі зеІесЬ (Іѣет а[] , іхгЬ 1, іпі: г, іпѣ к) 

{ 

ѵгііііе (г > 1) 

{ іп’Ь і = раг’Ьі’Ьіоп (а, 1, г) ; 
іі? (і >= к) г = і-1; 
іі? (і <= к) 1 = і+1 ; 

} 

} 
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Программа 7.7 представляет собой нерекурсивную версию, построенную на базе 
рекурсивной версии, представленной в программе 7.6. Поскольку эта программа все- 
гда завершается рекурсивным вызовом самой себя, мы просто восстанавливаем на- 
чальные значения параметров и возвращаемся в начало программы. Это значит, что 
мы отказываемся от рекурсии и не используем стек, а также исключаем из програм- 
мы вычисления, в которых используется к , и рассматриваем Столько как индекс мас- 
сива. 

Лемма 7.4. Время выполнения выборки , для которой используется быстрая сортировка , 
в среднем подчиняется линейной зависимости. 

Как и в случае быстрой сортировки, можно предположить (в первом приближе- 
нии), что в случае файла очень больших размеров каждое разделение разбивает 
файл напополам, при этом для выполнения процесса разделения требуется выпол- 
нить N + УѴ/2 + УѴ/4 + А/ 8 +... = 2 N операций сравнения. Но поскольку разделе- 
ние выполняется именно для быстрой сортировки, это грубое приближение неда- 
леко от истины. Анализ, подобный приводимому в разделе 7.2 анализу быстрой 
сортировки, но гораздо более сложный (см. раздел ссылок ), дает результаты, соглас- 
но которым среднее число сравнений определяется выражением 

2 N + 2 к 1п( N/к ) + 2(14 - к) 1п( N/(1^ ~ к )), 

которое линейно зависит от любого допустимого значения к. Вычисление этой 
формулы при к ~ N /2 показывает, что для нахождения медианы необходимо вы- 
полнить (2 + 2 1п 2 ) А сравнений. 

Пример того, как этот метод находит медиану в крупном файле, представлен на 
рис. 7.14. В рассматриваемом случае имеется только один подфайл, который при каж- 
дом вызове уменьшается в размере в одно и то же число раз, таким образом, эта про- 
цедура завершается за О ( 1о§ А ) шагов. Выполнение программы можно ускорить, 
введя в нее выборку, однако при этом следует соблюдать осторожность (см. упраж- 
нение 7.45У 


РИСУНОК 7.14. ВЫБОР МЕДИАНЫ 
С ПОМОЩЬЮ ПРОЦЕДУРЫ 
РАЗДЕЛЕНИЯ. 

Процесс выборки предусматривает 
разбиение на разделы подфайла , 
который содержит искомый 
элемент , перемещение левого 
указателя вправо или правого 
указателя влево в зависимости от 
того , где окажется точка раздела. 
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Наихудший случай проявляется так же, как и для случая быстрой сортировки — 
использование данного метода для нахождения наименьшего элемента уже упорядо- 
ченного файла приводит к тому, что время выполнения этой процедуры характери- 
зуется квадратичной зависимостью. Можно модифицировать эту процедуру, основан- 
ную на применении быстрой сортировки, таким образом, что время ее выполнения 
будет гарантировано подчиняться линейной зависимости. Однако все модификации 
подобного рода, будучи очень важными в плане теоретических исследований, совер- 
шенно неприемлемы на практике. 

Упражнения 

7.41. Сколько в среднем потребуется операций сравнения, чтобы найти наимень- 
ший элемент в файле из N элементов, применяя для этой цели процедуру зеіесі? 

7.42. Сколько в среднем потребуется операций сравнения, чтобы найти аУѴ-й 
наименьший элемент, применяя для этой цели процедуру $е1ес1, для 
а = 0.1, 0.2, ... , 0.9 ? 

7.43. Сколько потребуется операций сравнения в наихудшем случае, чтобы най- 
ти медиану из N элементов, применяя для этой цели процедуру $е1ес1? 

7.44. Напишите эффективную программу переупорядочения файла таким обра- 
зом, чтобы все элементы с ключами, равными медиане, оказались в окончатель- 
ной позиции, элементы меньше медианы — слева и элементы больше медианы — 
справа. 

•• 7.45. Проведите исследование идеи использования выборки с целью повышения 
эффективности выбора. Совет : Использование медианы не всегда приводит к ожи- 
даемым результатам. 

• 7.46. Реализовать алгоритм выборки на базе метода трехпутевого разделения на 
примере крупного файла с ключами, принимающими г различных значений, для 
/ = 2, 5 и 10. 



Слияние и 

сортировка 

слиянием 


С емейство алгоритмов быстрой сортировки, рассмот- 
ренное в главе 7, основано на операции выборки : на- 
хождение к-то минимального элемента в файле. Мы убе- 
дились а том, что выполнение операции выборки анало- 
гично делению файла на две части, на часть, содержащую 
все к наименьших элементов, и часть, содержащую к 
больших по значению элементов. В этой главе исследует- 
ся семейство алгоритмов сортировки, в основе которых 
лежит вспомогательный процесс, известный как слияние , 
т.е., объединение двух отсортированных файлов в один 
файл большего размера. Слияние является основой для 
простого алгоритма сортировки типа "разделяй и властвуй" 
(см. раздел 5.2), а также для его двойника — алгоритма 
восходящей (снизу-вверх) сортировки слиянием, при этом 
оба из них достаточно просто реализуются. 

Выборка и слияние — суть вспомогательные операции 
в том смысле, что выборка разбивает файл на два незави- 
симых файла, в то время как слияние объединяет два не- 
зависимых файла в один. Контраст между этими двумя 
операциями становится очевидным, если применить 
принцип "разделяй и властвуй" для создания конкретных 
методов сортировки. Можно изменить организацию фай- 
ла таким образом, что когда обе части файла подвергают- 
ся сортировке, упорядочивается и весь файл; и наоборот, 
можно разбить файл на две части для последующей сорти- 
ровки, а затем объединить упорядоченные части, чтобы 
получить весь файл в упорядоченном виде. Мы уже виде- 
ли, что получается в первом случае: это ни что иное как 
быстрая сортировка, которая состоит из процедуры вы- 
борки, за которой следуют два рекурсивных вызова. 
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В этой главе рассматривается сортировка слиянием ( тег%е$огі ), которая является до- 
полнением быстрой сортировки в том, что она состоит из двух рекурсивных вызовов 
с последующей процедурой слияния. 

Одним из наиболее привлекательных свойств сортировки слиянием является тот 
факт, что она сортирует файл, состоящий из N элементов, за время, пропорциональ- 
ное N\о%N, независимо от характера входных данных. В главе 9 мы познакомимся 
с еще одним алгоритмом, время выполнения которого гарантировано пропорцио- 
нально ЛПо^ТѴ; алгоритм носит название пирамидальной сортировки (Иеарзогі). Основ- 
ной недостаток сортировки слиянием заключается в том, что прямолинейные 
реализации этого алгоритма требуют дополнительного пространства памяти, пропор- 
ционального N. Это препятствие можно обойти, однако сделать это довольно слож- 
но, причем потребуются дополнительные затраты, которые в общем случае не оправ- 
дываются на практике, особенно если учесть, что существует альтернатива в виде 
пирамидальной сортировки. Получить программную реализацию сортировки слияни- 
ем не труднее, чем реализацию пирамидальной сортировки, при этом длина внутрен- 
него цикла принимает среднее значение между аналогичными показателями быстрой 
сортировки и пирамидальной сортировки, следовательно, сортировка методом слия- 
ния достойна того, чтобы к ней проявить внимание в случае, когда на первый план 
выходят такие показатели как быстродействие, необходимость избегать наихудших 
случаев, возможность использования дополнительного пространства памяти. 

Но гарантированное время выполнения, пропорциональное может обер- 

нуться недостатком. Например, в главе 6 мы видели, что существуют методы, кото- 
рые могут быть адаптированы таким образом, что в некоторых особых ситуациях, на- 
пример, когда уровень упорядоченности файла достаточно высок либо когда имеется 
всего лишь несколько различных ключей, время их выполнения линейно. В противопо- 
ложность этому, время выполнения сортировки слиянием зависит главным образом от 
числа ключей входного файла и оно практически не чувствительно к их порядку. 

Сортировка слиянием — это устойчивая сортировка, и данное обстоятельство 
склоняет чашу весов в ее пользу в тех приложениях, в которых устойчивость имеет 
важное значение. Конкурирующие методы, такие как быстрая сортировка или пира- 
мидальная сортировка, не относятся к числу устойчивых. Различные приемы, прида- 
ющие этим методам устойчивость, имеют стойкую тенденцию к использованию до- 
полнительного пространства памяти; следовательно, требования дополнительной 
памяти, предъявляемые со стороны сортировки слиянием отодвигаются на задний 
план в тех случаях, когда устойчивость становится доминирующим фактором. 

Другое свойство сортировки слиянием, которое приобретает важное значение в 
некоторых ситуациях, является тот факт, что сортировка слиянием обычно реализу- 
ется таким образом, что она осуществляет, в основном, последовательный доступ к 
данным (один элемент за другим). Например, сортировка слиянием — именно тот 
метод, который можно применить к связным спискам, для которых из всех методов 
доступа применим только метод последовательного доступа. По тем же причинам, как 
мы убедимся в главе 11, слияние часто используется в качестве основы для сортировки 
на специализированных и высокопроизводительных машинах, поскольку именно 
последовательный доступ к данным в подобного рода системах обработки данных 
является самым быстрым. 
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8.1. Двухпутевое слияние 

Имея два упорядоченных входных файла, их можно объединить в один упорядо- 
ченный выходной файл просто отслеживая наименьший элемент в каждом файле и 
входя в цикл, в котором меньший из двух элементов, наименьших в своих файлах, 
переносится в выходной файл; процесс продолжается до тех пор, пока оба входных 
файла не будут исчерпаны. Мы ознакомимся с несколькими реализации этой базо- 
вой абстрактной операции в этом и следующем разделах. Время выполнения линей- 
но зависит от количества элементов в выходном файле, если на каждую операцию 
поиска следующего наименьшего элемента в файле уходит одно и то же время, что 
как раз и имеет место в том случае, когда отсортированные файлы представлены 
структурой данных, которая поддерживает последовательный доступ с постоянным 
временем доступа, такой как связный список или массив. Эта процедура представляет 
собой двухпутевое слияние (Оѵо-ѵѵяу тег%іп%)\ в главе 1 1 мы подробно ознакомимся с 
многопутевым слиянием, в котором принимают участие более двух файлов. Наибо- 
лее важным приложением многопутевого слияния является внешняя сортировка, ко- 
торая подробно рассматривается в текущей главе. 

Для начала предположим, что имеются два непересекающихся упорядоченных мас- 
сива целых чисел а[Ф],...,а[№11 и Ь[0],...,Ь[М-1], которые требуется слить в третий 
массив с[0],...,сПѴ+М-1]. Легко реализуемая очевидная стратегия заключается в том, 
чтобы последовательно выбирать для с наименьший оставшийся элемент из а и Ь, как 
показано в программе 8.1. Эта реализация отличается простотой, в то же время она 
обладает характеристиками, которые мы сейчас и рассмотрим. 


Программа 8,1. Слияние 

Чтобы объединить два упорядоченных массива а и Ь в упорядоченный массив с, 
используется цикл Тог, который помещает элемент в массив с на каждой итерации. 
Если а исчерпан, элемент берется из Ь; если исчерпан Ь, то элемент берется из а; 
если же элементы остаются и в том и в другом массиве, наименьший из оставшихся 
элементов в а и Ь переходит в с. Помимо неявного предположения об упорядочен- 
ности обоих массивов, эта реализация предполагает также, что массив с не пере- 
секается (т.е., не перекрывается или совместно не использует памяти) а и Ь. 


'Ьетріаѣе <с1азз І-Ьет> 

ѵоісі тегдеАВ (Нет с[], Іѣет а[] , іпѣ N , 

Іѣет Ь [] , іпѣ М ) 

{ 

Ног (іпѣ і = 0, з = О, к = 0; к < Ы+М; к++) 

{ 

іі: (і = И) { с[к] = Ъ[з++]; соп-Ьіпие; } 
і* (з == И) { с[к] = а[і++]; сопѣіпие; } 
с [к] = (а [і] < Ъ[Л) ? а [і++] : Ь[з++]; 

} 

} 


Во-первых, эта реализация предполагает, что массивы не пересекаются. В частно- 
сти, если а и Ь являются крупными массивами, то для размещения выходных данных 
необходим третий массив с (также крупный). Вместо того чтобы использовать допол- 
нительное пространство памяти, пропорциональное размерам слитого файла, жела- 
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тельно иметь в своем распоряжении такой метод, чтобы с помощью операций обме- 
на мы могли, например, объединить два упорядоченных файла а[1],...,а[т] и 
а[т+1],...,а[г] в один упорядоченный файл за счет соответствующего перемещения 
элементов а[1],...,а[г] без использования больших объемов дополнительного про- 
странства памяти. Здесь желательно на какое-то время остановиться и подумать о 
том, как можно все это сделать. На первый взгляд кажется, что у этой проблемы есть 
простое решение, однако на самом деле все известные до сих пор решения достаточ- 
но сложные, особенно если их сравнить с программой 8.1. И в самом деле, доволь- 
но трудно разработать алгоритм обменного слияния, т.е. в рамках пространства 
памяти, занимаемого входными файлами, который обладал бы лучшими характери- 
стиками и который мог бы стать альтернативой обменной сортировке. Мы вернемся 
к этой проблеме в разделе 8.2. 

Слияние, как операция, имеет свою собственную область применения. Например, 
в обычной среде обработки данных может возникнуть необходимость поддерживать 
крупный (упорядоченный) файл данных, в который непрерывно поступают новые 
элементы. Один из подходов заключается в том, что новые элементы группируются 
в пакеты , которые затем добавляются в главный (намного больший) файл, после чего 
выполняется очередная сортировка всего файла. Такая ситуация как бы специально 
создана для слияния: более эффективная стратегия предусматривает сортировку па- 
кета (небольших размеров) новых элементов, с последующим слиянием полученно- 
го файла небольших размеров с большим главным файлом. Слияние используется во 
многих подобного рода приложениях, что обусловливает целесообразность ее изуче- 
ния. Основное внимание в данное главе будет уделяться методам сортировки, в ос- 
нову которых положено слияние. 

Упражнения 

8.1. Предположим, что упорядоченный файл размером УѴ нужно объединить с не- 
упорядоченным файлом размером Л/, при этом М намного меньше УѴ. Во сколь- 
ко раз быстрее, чем повторная сортировка, работает предложенный метод, в ос- 
нове которого лежит слияние, если его рассматривать как функцию от Л/, при 
N — ІО 3 , ІО 6 и ІО 9 ? Решите эту задачу полагая, что в вашем распоряжении имеет- 
ся программа сортировки, которой требуется С]N\%N секунд, чтобы выполнить 
сортировку файла размером УѴ, и программа слияния, которой требуется 
С 2 (УѴ + М) секунд, чтобы слить файл размером УѴ с файлом размером М , при с\ ~ с^. 

8.2. В чем превосходит и в чем уступает сортировка всего файла методом вставок 
двум методами, представленными в упражнении 8.1? (Ответьте на этот вопрос, по- 
лагая, что малый файл имеет произвольную организацию, так что каждая встав- 
ка проходит примерно полпути в большом файле, а время выполнения сортировки 
определяется выражением с 3 Л/УѴ/2, при этом константа с 3 — того же порядка, что 
и другие константы.) 

8.3. Что произойдет, если воспользоваться программой 8.1 для обменного слияния 
посредством вызова тег§е(а, а, N/2, а+ІЧ/2, N-N/2) применительно к ключам 
АЕ081ІУЕІ1ѴО8Т? 
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о 8 . 4 . Верно ли утверждение, что программа 8.1, вызванная так, как показано в уп- 
ражнении 8.3, работает правильно тогда и только тогда, когда оба входных под- 
массива уже отсортированы? Докажите правильность выводов или представьте 
контрпример. 

8.2. Абстрактное обменное слияние 

Хотя реализация слияния, по-видимому, требует дополнительного пространства, 
мы все еще считаем абстракцию обменного слияния полезной при реализации мето- 
дов сортировки, которые здесь изучаются. В нашей следующей реализации слияния 
мы сделаем акцент на этом моменте за счет использования интерфейса 
шег§е(а, 1, ш, г), тем самым показывая, что подпрограмма помещает результат сли- 
яния а[1],...,а[т] и а[ш+1],...,а[г] в объединенный упорядоченный файл а[1],..., а[г]. 
Можно было бы реализовать эту программу слияния, сначала скопировав абсолют- 
но все во вспомогательный файл с последующим применением базового метода, ис- 
пользованного в программе 8.1, однако пока мы не будем делать этого, а сначала 
внесем одно усовершенствование в данный подход. И хотя дополнительное простран- 
ство памяти для вспомогательного массива, по-видимому, на практике связано с 
определенной ценой, в разделе 8.4 мы рассмотрим дальнейшие улучшения, которые 
позволят избежать дополнительных затрат времени , требуемого на копирование мас- 
сива. 

Вторая, заслуживающая внимания, основная характеристика базового слияния 
заключается в том, что внутренний цикл содержит две проверки с целью определить, 
достигнут ли конец хотя бы одного из двух массивов. Разумеется, чаще условие этой 
проверки не подтверждаются, и складывается исключительно благоприятная ситуация 
для использования служебных ключей, позволяющих отказаться от такого рода про- 
верок. Иначе говоря, если элементы со значениями ключей, большими, чем значения 
всех других ключей, добавляются в конец массива а и массива аих, от этих проверок 
можно отказаться в силу того, что если массив а (Ь) будет исчерпан, служебный ключ 
позволяет перейти в режим выборки следующих элементов только из массива Ь (а) и 
помещать их в массив с вплоть до окончания операции слияния. 

Однако, как было показано в главах 6 и 7, служебными метками не всегда про- 
сто пользоваться либо в силу того, что не всегда легко находить значение наиболь- 
шего элемента, либо в связи с тем, что необходимое пространство памяти не так-то 
просто получить. Что касается слияния, то существует достаточно простое средство, 
которое показано на рис. 8.1. В основу этого метода положена следующая идея: при 
условии, что мы отказались копировать массивы, чтобы реализовать обменную абст- 
ракцию, мы просто представляем второй файл во время его копирования в обратном 
порядке (без дополнительных затрат), так что связанный с ним указатель перемеща- 
ется справа налево. Эта операция приводит к тому, что наибольший элемент, в каком 
бы он файле не находился, служит служебной меткой для другого массива. Програм- 
ма 8.2 содержит эффективную реализацию абстрактного обменного слияния, в основу 
которого положена упомянутая идея; она служит фундаментом алгоритмов сортиров- 
ки, которые обсуждаются ниже в этой главе. Она также использует вспомогательный 
массив, размер которого пропорционален выходному файлу, полученному в резуль- 
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тате слияния, но она гораздо более эффективна, неже- 
ли прямолинейная реализация, поскольку в этом случае 
отпадает необходимость проверок с целью обнаружения 
окончания сливаемых массивов. 

Программа 8.2. Абстрактное обменное слияние 
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Данная программа выполняет слияние двух файлов без ис- 
пользования служебных меток, путем копирования второго 
массива в массив аих в обратном порядке, когда сразу за 
концом первого массива следует конец второго (т.е., уста- 
навливая на аих битонный (Ьііопіс) порядок). Первый цикл 
Гог перемещает первый массив, после чего і указывает на 
I, что означает готовность начинать слияние. Второй цикл 
Гог перемещает второй массив, после чего \ указывает на 
г. Затем в процессе слияния (третий цикл Гог) наибольший 
элемент служит служебной меткой независимо от того, в 
каком файле он находится. Внутренний цикл этой програм- 
мы достаточно короткий (перенос в аих, сравнение, пере- 
нос обратно в а, увеличение значений і или і на единицу, 
увеличение на единицу и проверка значения к). 

‘Ьетріаѣе <с1азз І < Ьѳт> 

ѵоісі тегде(І‘Ьет а [ ] , іпѣ 1, іпѣ т, іпѣ г) 

{ іпѣ і, з; 

зѣаѣіс Іѣет аих[тахЛ] ; 

і:ог (і *= т+1; і > 1; і — ) аих[і-1] = а[і-1]; 

^ог (з = т; з < г; з++) аих[г+т~з] = а[з+1]; 
^ог (іпѣ к = 1; к <= г; к++) 

(аих[з] < аих[і]) 

а[к] = аих[з — ]; еізе а[к] = аих[і++] ; 

} 


РИСУНОК 8.1. СЛИЯНИЕ БЕЗ 
ИСПОЛЬЗОВАНИЯ СЛУЖЕБНЫХ 
МЕТОК. 

Чтобы слить два 
возрастающих файла , они 
копируются во 
вспомогательный массив , при 
этом второй файл в обратном 
порядке непосредственно 
следует за первым. Далее мы 
следуем простому правилу: 
перемещаем на выход левый или 
правый элемент в зависимости 
от того , какой из них меньше. 
Наибольший ключ служит 
служебной меткой для другого 
файла, независимо от того, в 
каком файле этот ключ 
находится. На данной 
диаграмме показано, как 
производится слияние файлов 
АК8Ти С I N. 


Последовательность ключей, которая сначала увеличивается, а затем уменьшает- 
ся (или сначала уменьшается, а затем увеличивается), называется битонной ( Ьііопіс ) 
последовательностью. Сортировка битонной последовательности эквивалентна сли- 
янию, но иногда удобно представить проблему слияния как проблему битонной сор- 
тировки; рассмотренный метод, позволяющий избежать сравнений со служебным эле- 
ментом, можно рассматривать как простой пример таких сортировок. 

Одно из важных свойств программы 8.1 заключается в том, что реализуемое ею 
слияние устойчиво: она сохраняет относительный порядок элементов с одинаковы- 
ми ключами. Эту характеристику нетрудно проверить, и часто имеет смысл убедить- 
ся в том, что устойчивость сохраняется при реализации абстрактного обменного сли- 
яния, поскольку устойчивое слияние немедленно приводит к устойчивым методам 
сортировки, как будет показано в разделе 8.3. Не всегда просто сохранить свойство 
устойчивости: например, программа 8.1 не обеспечивает устойчивости (см. упражне- 
ние 8.6). Это обстоятельство еще больше усложняет проблему разработки истинного 
алгоритма обменного слияния. 
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Упражнения 

С> 8.5. В стиле примера, представленного на диаграмме 8.1, показать, как выполня- 
ется слияние ключей АЕ081ІѴЕІІѴО8ТС использованием программы 8.1. 

о 8 . 6 . Объяснить, почему программа 8.2 не является устойчивой, и разработать ус- 
тойчивую версию этой программы. 

8.7. Что получится, если программу 8.2 применить к ключам ЕА8У0ІІЕ8Т 
I О N7 

о 8 . 8 . Верно ли, что программа 8.2 выполняет правильный вывод тогда и только тог- 
да, когда оба входных подмассива представлены в порядке, установленном сорти- 
ровкой? Приведите аргументы в пользу своего ответа либо представьте контрпри- 
мер. 


8.3. Нисходящая сортировка слиянием 


Имея в своем распоряжении процедуру слияния, 
нетрудно воспользоваться ею в качестве основы для 
рекурсивной процедуры сортировки. Чтобы отсорти- 
ровать заданный файл, мы делим его на две части, 
выполняем рекурсивную сортировку обеих частей, 
после чего производим их слияние. Реализация этого 
алгоритма представлена в программе 8.3; пример ил- 
люстрируется на рис. 8.2. Как отмечалось в главе 5, 
этот алгоритм является одним из широко известных 
примеров использования принципа "разделяй и вла- 
ствуй" при разработке эффективных алгоритмов. 

Нисходящая сортировка слиянием аналогична 
принципу управления сверху вниз, в рамках которо- 
го руководитель организует работы таким образом, 
что получив большую задачу, он разбивает ее на под- 
задачи, которые должны независимо решать его под- 
чиненные. Если каждый руководитель будет решать 
свою задачу, разбивая ее на две равные части с после- 
дующим объединением решений, полученных его под- 
чиненными и последующей передачей результата сво- 
ему начальству, то примерно также организована 
сортировка слиянием. Работа недалеко продвинется, 
пока кто-то, кто не имеет в своем подчинении испол- 
нителей, не получит и не выполнит свою задачу (в рас- 
сматриваемом случае это слияние двух файлов разме- 
ром 1); однако руководство выполняет значительную 
часть работы, соединяя результаты работы подчинен- 
ных в единое целое. 

Сортировка слиянием играет важную роль благо- 
даря простоте и оптимальности заложенного в нее ме- 


АЗОНТ I N С Е X А М Р Ь Е 

о р 

А О Я 5 

I Т 

С N 
С I N Т 
А С I N О Р 8 Т 

Е X 

А М 
А Е М X 

I. Р 
Е I Р 
АЕЕІ.МРХ 
А А Е ЕС I 1.МЫОРРЗТХ 

РИСУНОК 8.2. ПРИМЕР 
НИСХОДЯЩЕЙ СОРТИРОВКИ 
СЛИЯНИЕМ 

Каждая строка показывает 
результат вызова функции 
тег&езогі в процессе нисходящей 
сортировки слиянием. Сначала 
выполняется слияние А и 8, 
чтобы получитъ А8, затем 
слияние О и К, чтобы получить 
ОК, а затем слияние ОЯ и А8, 
чтобы получить А0Я8. Далее 
осуществляется слияние ІТи СИ, 
чтобы получить СШТ, затем 
этот результат сливается с 
АО К К и получается АСШ0Я8Т 
и т.д. При помощи этого метода 
производится рекурсивное 
построение отсортированных 
файлов из отсортированных 
файлов меньших размеров. 
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тода (время ее выполнения пропорционально ЛПо§ АО, который допускает возмож- 
ность реализации, обладающей устойчивостью. Эти утверждения сравнительно не- 
трудно доказать. 

Как было показано в главе 5 (и для быстрой сортировки в главе 7), можно вос- 
пользоваться древовидной структурой, чтобы получить наглядное представление о 
структуре рекурсивных вызовов рекурсивного алгоритма, что поможет понять все 
варианты рассматриваемого алгоритма и провести его анализ. Что касается сортиров- 
ки слиянием, то структура рекурсивных вызовов целиком зависит от размеров вво- 
да. Для любого заданного N мы строим дерево, получившее название "< дерево разде- 
ляй и властвуй ", которое описывает размер подфайлов, подвергаемых обработке в 
процессе выполнения программы 8.3 (см. упражнение 5.73): если УѴ есть 1, то в таком 
дереве имеется всего лишь один узел с меткой 1; в противном случае дерево состоит 
из узла, содержащего файл размером УѴ, представляющего корень, поддерева, пред- 
ставляющего левый подфайл размера [.N/2] и поддерева, представляющего правый 
подфайл размера \ N / 1\. Следовательно, каждый узел этого дерева соответствует вы- 
зову функции тег§е$ог(, при этом метка дает представление о размере задачи, соот- 
ветствующей конкретному рекурсивному вызову. Если N есть степень 2, то такая кон- 
струкция приводит к получению полностью сбалансированного дерева со степенью 2 
во всех узлах и 1 во всех внешних узлах. Когда N не является степенью 2, сложность 
дерева увеличивается. Примеры обоих вышеуказанных случаев иллюстрируются ди- 
аграммой на рис. 8.3. Мы сталкивались с подобного рода деревьями раньше, в раз- 
деле 5.2, когда изучали алгоритм со структурой рекурсивных вызовов, аналогичной 
применяемой в сортировке слиянием. 

Программа 8.3. Нисходящая сортировка слиянием 

Эта базовая реализация сортировки слиянием является примером рекурсивной про- 
граммы, прототипом которой служит принцип "разделяй и властвуй". Она выполняет 
сортировку массива а[г] путем деления его на две части а[1],...,а[т] и 

а[т+1],...,а[г] с последующей их сортировкой независимо друг от друга (через ре- 
курсивные вызовы) и слияния полученных упорядоченных подфайлов с тем, чтобы 
в конечном итоге получить отсортированный исходный файл. Функция может потре- 
бовать использования вспомогательного файла, достаточно большого, чтобы при- 
нять копию входного файла, однако эту абстрактную операцию удобно рассматри- 
вать как обменное слияние (см. текст). 

'ЬетрІа'Ье Ссіазз І-Ьет> 

ѵоі<і тегдезогЪ (Нет а[], іпЪ 1, іпЪ г) 

{ іі: (г <= 1) ге^игп; 
іпЪ т = (г+1)/2; 

тегдезогЪ (а, 1, т) ; 

тегдѳзогЪ(а, т+1 , г); 
тегде(а, 1, т, г); 

} 


Структурные свойства сбалансированных деревьев, построенных по принципу 
"разделяй и властвуй", имеют непосредственное отношение к анализу сортировки 
слиянием. Например, общее количество операций сравнения, выполняемых алгорит- 
мом, в точности равно сумме всех меток узлов. 
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РИСУНОК 8.3. ДЕРЕВЬЯ, ПОСТРОЕННЫЕ ПО ПРИНЦИПУ "РАЗДЕЛЯЙ И ВЛАСТВУЙ" 

Эти три диаграммы иллюстрируют размеры подзадач, возникающих в процессе выполнения 
нисходящей сортировки слиянием. В отличие от деревьев, соответствующих, например, быстрой 
сортировке, эти схемы определяются только размерами исходного файла, а не значениями ключей, 
присутствующих в файле. Верхняя диаграмма показывает, как сортируется файл, состоящий их 32 
элементов. Мы (рекурсивно) сортируем два файла по 16 элементов, затем выполняем их слияние. 
Файлы сортируются по 16 элементов с выполнением (рекурсивной) сортировки файлов по 8 элементов 
и т.д. Для файлов , размер которых нельзя представить в виде степени 2, схема оказывается 
несколько более сложной, в чем нетрудно убедиться из нижней диаграммы. 


Лемма 8.1. Сортировка слиянием требует выполнения примерно N \%N операций срав- 
нения для сортировки любого файла из N элементов. 

В реализациях, описанных в разделах 8.1 и 8.2, каждое слияние типа (N/2) на 
(N/2) требует N сравнений (это значение будет для разных файлов отличаться на 
1 или на 2, в зависимости от того, как используются служебные метки). Следо- 
вательно, общее количество сравнений при сортировке в полном объеме мо- 
жет быть описано стандартным сбалансированным рекуррентным соотношени- 
ем: Мдг= Мін/ 2 } + М\н/ 2 ] + N 1 где Л/і=0. Такое рекуррентное соотношение 
описывает также сумму меток узлов и длину внешнего пути дерева типа "разде- 
ляй и властвуй" с N узлами (см. упражнение 5.73). Это утверждение нетрудно про- 
верить, когда N является степенью числа 2 (см. формулу 2.4) и доказать методом 
индукции для произвольного N. Упражнения 8.12—8.14 содержат непосредствен- 
ное доказательство. 

Лемма 8.2. Сортировка слиянием использует дополнительное пространство, пропорци- 
ональное N. 

Это факт непосредственно следует из обсуждения, приведенного в разделе 8.2. Мы 
можем предпринять некоторые шаги, йабы уменьшить размеры используемого до- 
полнительного пространства за счет существенного усложнения алгоритма (см., 
например, упражнение 8.21). Как будет показано в разделе 8.7, сортировка слия- 
нием также эффективна, если сортируемый файл организован как связный спи- 
сок. В этом случае указанное свойство сохраняется, однако для связей расходуется 
дополнительное пространство памяти. В случае массивов, как отмечалось в разде- 
ле 8.2, можно выполнять обменное слияние (обсуждение этой темы будет продол- 
жено в разделе 8.4), однако эта стратегия вряд ли оправдывается на практике. 
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Лемма 8.3. Сортировка слиянием устойчива, если устойчив используемый при этом ме- 
тод слияния. 

Это утверждение легко проверить методом индукции. Для реализации метода сли- 
яния, предложенного в программе 8.1, легко показать, что относительная позиция 
дублированных ключей не нарушается. Однако, чем сложнее алгоритм, тем выше 
вероятность того, что эта устойчивость будет нарушена (см. упражнение 8.6). 


Лемма 8.4. Потребность ресурсов со стороны сортировки слиянием не чувствительна 
по отношению к исходному порядку входного файла. 

В наших реализациях входные данные определяют разве что порядок, в котором 
элементы обрабатываются во время слияний. Каждый проход требует пространства 
памяти и числа шагов, пропорциональных размеру подфайла, что обусловливает- 
ся необходимостью затрат на перемещение данных во вспомогательный файл. 
Соответствующие две ветви оператора іі могут потребовать слегка отличающихся 
значений времени для выполнения компиляции, что в свою очередь приводит к 
некоторой зависимости времени выполнения от характера входных данных, од- 
нако число сравнений и других операций не зависит от того, как упорядочен вход- 
ной файл. Обратите внимание на то, что это отнюдь не эквивалентно утвержде- 
нию, что алгоритм не адаптивный (см. раздел 6.1) — последовательность сравнений 
не зависит от упорядоченности входных данных. 

Упражнения 

> 8.9. Показать, что слияние, реализуемое программой 8.3, не сортирует ключи 

ЕА8Ѵ(21]Е8ТІ0 1Ч. 

8.10. Начертить деревья типа "разделяй и властвуй" для N = 16, 24, 31, 32, 33 и 39. 

• 8.11. Реализовать рекурсивную сортировку слиянием для массивов, воспользовав- 
шись идеей трехпутевой, а не двухпутевой сортировки. 

о 8.12. Доказать, что все узлы с метками 1 в деревьях типа "разделяй и властвуй", 
расположены на двух нижних уровнях. 

о 8.13. Доказать, что метки в узлах на каждом уровне сбалансированного дерева 
размером УѴ, в сумме дают УѴ, за исключением, возможно, нижнего уровня. 

о 8.14. Используя упражнения 8.12 и 8.13, доказать, что количество сравнений, не- 
обходимых для выполнения сортировки слиянием, находятся в пределах между 
УѴ1§7Ѵи УѴ1§УѴ + N. 

• 8.15. Найти и доказать зависимость между числом сравнений, используемых сор- 
тировкой слиянием, и количеством бит в |1&УѴІ-разрядных положительных числах, 
меньших N. 


•Эт’Ѵ/ Часть 3 . Сортировка 

8.4. Усовершенствования базового алгоритма 

Как уже было видно на примере быстрой сортировки, можно усовершенствовать 
большую часть рекурсивных алгоритмов, применяя для обработки файлов небольших 
размеров другие методы, отличные от основного. Рекурсия гарантирует, что эти ме- 
тоды будут использоваться для случаев небольших файлов, так что более совершен- 
ная обработка файлов небольших размеров приводит к тому, что улучшается и весь 
алгоритм. Следовательно, как это имело место и для случая быстрой сортировки, пе- 
реключение на сортировку вставками подфайлов небольших размеров приводит к 
уменьшению времени выполнения типовой реализации операции сортировки слияни- 
ем от 10 до 15 процентов. 

В качестве следующего усовершенствования целесообразно рассмотреть возмож- 
ность сведения к нулю времени копирования данных во вспомогательный массив, 
используемый процедурой слияния. Поступая таким образом, следует так организо- 
вать рекурсивные вызовы, что процесс вычисления сам меняет в нужный момент 
роли входного и вспомогательного массивов на каждом уровне. Один из способов 
реализации такого подхода заключается в создании двух вариантов программ — од- 
ного для приема входных данных в файл а и пересылки выходных данных в файл 
аих, а другого для приема входных данных в файл аих и пересылки выходных дан- 
ных в файл а, после чего обе версии поочердно вызывают одна другую. Другой под- 
ход продемонстрирован в программе 8.4, которая вначале создает копию входного 
массива, а затем использует программу 8.1 и переключает аргументы в рекурсивных 
вызовах с целью отказа от явно заданной процедуры копирования массива. Вместо 
нее путем поочередных переключений результат слияний помещается то во вспомо- 
гательный, то во входной файл. (Это достаточно хитроумная программа.) 

Данный метод позволяет избежать копирования массива ценой включения во 
внутренний цикл проверки с целью определения, когда входные файлы будут исчер- 
паны. (Напоминаем, что предложенный метод устранения подобного рода проверок 
в программе 8.2 предусматривает превращение этого файла в битонный на время 
копирования.) Эту потерю можно восполнить посредством реализации той же идеи: 
мы пишем программы как слияния, так и сортировки слиянием, одну для представ- 
ления массива в порядке возрастания, а другую — для представления массива в по- 
рядке убывания. Вооружившись такой стратегией, можно снова обратиться к битон- 
ной стратегии и устроить так, что внутреннему циклу слияния никогда не понадобятся 
служебные метки. 

Принимая во внимание тот факт, что такая супероптимизация использует четыре 
копии базовых программ и умопомрачительные рекурсивные переключения аргу- 
ментов, она может быть рекомендована экспертам (или студентам!), но в то же вре- 
мя она существенно ускоряет сортировку слиянием. Экспериментальные результаты, 
которые будут обсуждаться в разделе 8.6, показывают, что сочетание всех предложен- 
ных выше усовершенствований ускоряют сортировку слиянием примерно на 40 про- 
центов, однако сортировка слиянием все еще выполняется примерно на 25 процен- 
тов медленнее, чем быстрая сортировка. Эти показатели зависят от реализации и от 
машины, однако подобные результаты возможны в различных ситуациях. 
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Другие реализации слияния, требующие выполнения явно заданных проверок на 
предмет исчерпания первого файла, могут привести к более заметным колебаниям 
значений времени выполнения в зависимости от характера входных данных, но эта 
зависимость все еще остается незначительной. В файлах с произвольной организацией 
размер другого подфайла, когда исчерпывается первый файл, будет небольшим, и 
стоимость перемещения во вспомогательный файл все еще остается пропорциональ- 
ной размеру этого подфайла. Можно подумать о повышении производительности 
сортировки слиянием в тех случаях, когда в файле уже достигнута высокая степень 
упорядоченности, за счет игнорирования вызова функции шег§е, когда в файле уже 
установлен порядок, однако данная стратегия не эффективна на многих типах фай- 
лов. 

Программа 8.4. Сортировка слиянием без копирования 

Рекурсивная программа предусматривает сортировку файла Ь, в результат сорти- 
ровки помещается в файл а. Следовательно, рекурсивные вызовы сформулирова- 
ны таким образом, что их результаты остаются в файле Ь, и мы применяем про- 
грамму 8.1 для слияния файлов, помещенных в Ь с файлом из а, а их результаты 
остаются в файле а. Таким образом, все перемещения данных выполняются в про- 
цессе слияния. 

•Ьетріа-Ье <с1азз Ііѳт> 

ѵоісі тегдезогЪАВг (Нет а[], Нет Ь[], іп+. 1, іпѣ г) 

{ Н (г-1 <= 10) { іпзегѣіоп (а, 1, г); геЪигп; } 

іігЬ т = (1+г)/2; 

тегдезогЪАВг (Ь , а , 1 , т) ; 
тегдезог+АВг (Ь, а, т+1 , г); 

тегдеАВ(а+1, Ь+1, т-1+1, Ъ+т+1, г-т) ; 

} 

•Ьетріаѣе <с1азз Пет> 

ѵоісі тегдезогІАВ (Нет а[], іпѣ 1, іпѣ г) 

{ зѣаѣіс Нет аих[тахИ] ; 

Ног (іігЬ і = 1; і <= г; і++) аих[і] = а[і] ; 
тегдезогіАВг (а , аих, 1, г); 

} 


Упражнения 

8.16. Реализовать абстрактное обменное слияние, использующее дополнительное 
пространство памяти, размер которого пропорционален размеру меньшего из 
файлов, подвергаемых слиянию. (Ваш метод должен наполовину уменьшать по- 
требность в пространстве сортировки слиянием.) 

8.17. Выполните сортировку слиянием крупного файла с произвольной организа- 
цией и эмпирическим путем определите длину другого подфайла на момент исчер- 
пания первого подфайла как функцию от N (сумма длин двух сливаемых подфай- 
лов). 

8.18. Предположим, что программа 8.3 модифицирована таким образом, что про- 
пускает функцию шег§е, когда а[ш] < а[т+1]. Сколько сравнений экономится в 
этом случае, если в файле, представленном к сортировке, уже установлен порядок, 
предусматриваемый данной сортировкой? 
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8 . 19 . Выполните модифицированный алгоритм, предложенный в упражнении 
8.18, для крупных файлов с произвольной организацией. Определите эмпиричес- 
ким путем среднее число пропусков функции тег§е в зависимости от N (размер 
исходного файла, представленного к сортировке). 

8 . 20 . Предположим, что сортировка слиянием должна быть выполнена на Л-сор- 
тированном файле для небольшого значения Н. Какие изменения вы внесете в под- 
программу тег§е, чтобы воспользоваться преимуществами, предоставляемыми 
упомянутым свойством входных данных? Выполните эксперименты с гибридами 
сортировки методом Шелла и сортировки слиянием, основанными на этой под- 
программе. 

8 . 21 . Разработайте реализацию слияния, которое уменьшает потребность в допол- 
нительном пространстве памяти до та х(Л/, Л/ М ), воспользовавшись следующей 
идеей. Разбейте массив на Л/А/ блоков размером М (для простоты предположим, 
что N кратно М). Затем, (і) рассматривая эти блоки как записи, первые ключи ко- 
торых суть сортировочные ключи, отсортировать их, используя для этой цели сор- 
тировку выбором, и (//) выполнить проход по массиву, выполняя слияние перво- 
го блока со вторым, затем второго блока с третьим и так далее. 

8 . 22 . Доказать, что метод, описанный в упражнении 8.21, выполняется за время, 
подчиняющееся линейной зависимости. 

8.23. Реализовать битонную сортировку слиянием без копирования. 

8.5. Восходящая сортировка слиянием 

Как отмечалось в главе 5, у каждой рекурсивной программы имеется нерекурсив- 
ный аналог, который хотя и выполняет эквивалентные вычисления, тем не менее, он 
делает это по-другому. Будучи прототипами теории разработки алгоритмов по прин- 
ципу "разделяй и властвуй", нерекурсивные реализации сортировки слиянием заслу- 
живают детального изучения. 

Рассмотрим последовательность слияний, выполняемую рекурсивным алгоритмом. 
В примере, представленном на рис. 8.2, видно, что файл размером 15 сортируется в 
виде следующей последовательности слияний: 

1-с-1 1-с-1 2-с-2 1-с- 1 1-с-І 2-с-2 4-с-4 

1-с-1 1-с-І 2-с-2 1-с-1 2-с-1 4-с-З 8-с-7. 

Порядок выполнения слияний определяется рекурсивной структурой алгоритма. 
Однако подфайлы обрабатываются независимо и слияния могут выполняться в раз- 
личных последовательностях. Рисунок 8.4 показывает восходящую стратегию, при ко- 
торой последовательность слияний такова: 

1- с-І 1-с-І 1-с-І 1-с-І 1-с-І 1-с-І 1-с-І 

2- с-2 2-с-2 2-с-2 2-с- 1 4-с-4 4-с-З 8-с-7. 

Последовательность слияний, выполняемая рекурсивным алгоритмом, определя- 
ется деревом типа "разделяй и властвуй", показанным на рис. 8.3: мы просто прохо- 
дим по дереву в обратном порядке. Как было показано в главе 3, можно разработать 
нерекурсивный алгоритм, использующий явно определяемый стек, который даст ту 
же последовательность слияний. Однако нет необходимости ограничиваться только 
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обратным порядком: любое прохождение дерева, 
во время которого обход поддерева, принадле- 
жащего конкретному узлу, должен быть завер- 
шен перед посещением самого узла, дает пра- 
вильный алгоритм. Единственное ограничение 
заключается в том, что сливаемые файлы долж- 
ны быть сначала отсортированы. Что касается 
сортировки слиянием, то удобно сначала выпол- 
нять все слияния типа 1 -с-1 , затем все слияния 
типа 2-С-2, затем типа 4-с-4 и так далее. Такая 
последовательность соответствует обходу дерева 
по уровням, постепенно поднимаясь по дереву 
снизу вверх. 

Программа 8.5. Восходящая сортировка слиянием 

Восходящая сортировка слиянием состоит из после- 
довательности проходов по всему файлу с выполне- 
нием слияний вида т-с-т, при этом т на каждом 
проходе удваивается, так что в заключение произ- 
водится слияние типа т-с-х для некоторого х, мень- 
шего или равного т. 

іпііпе іпѣ тіп(іпѣ А, іпѣ В) 

{ гѳЫгп (А < В) ? А : В; } 
еетріаѣе Ссіазз Іѣет> 

ѵоі<і тегдезогізи (Іѣет а[], іігЬ 1, іпЪ г) 

{ 

Итог (іхѵЬ т — 1; т <= г-1; т = т+ш) 

:Сог (іп-Ь і = 1 ; і <= г-т; і += т+т) 
тегдѳ (а , і , і+т-1 , шіп (і+т+т-1 , г) ) ; 

} 


А 3 О В Т I N С Е X А М Р Ь Е 
А 3 

о. в 

I т ..- : 


* ■..•*** . • 



А М 


А О В 3 


С I 


АС I N О В 


А А Е Е С I 


Ь Р 


N Т 

А Е М X 

Е Ь 

3 т 

А Е Е Ь М Р 
ЬМИОРВЗТ 


X 

X 


РИСУНОК 8.4. ПРИМЕР ВОСХОДЯЩЕЙ 
СОРТИРОВКИ СЛИЯНИЕМ 

Каждая строка диаграммы показывает 
результат вызова функции в процессе 
восходящей сортировки слиянием. 
Слияния вида І-с-1 выполняются 
первыми: слияние А и 51 дает А5; затем 
производится слияние О и Я, в 
результате получаем ОЯ и так далее. 
Поскольку длина файла является 
нечетной величиной , последнее Е в 
слиянии не участвует. На втором 
проходе выполняются слияния типа 
2-с -2: А5 сливается с ОЯ, в результате 
получает А0Я5 и т.д. Сортировка 
файла завершается слиянием вида 
4-с-4, 4-с-З и, наконец, 8-С-7. 


В главе 5 на нескольких примерах можно было заметить, что когда мы рассуждаем 
в направлении снизу вверх, имеет смысл переориентировать мышление в направле- 
нии стратегии "объединяй и властвуй", в рамках которой принимаются решения от- 
носительно малых подзадач, которые объединяются для получения решения более 
крупной задачи. В частности, нерекурсивный вариант сортировки слиянием в про- 
грамме 8.5 получается следующим образом: все элементы файла рассматриваются как 
упорядоченные подсписки длиной 1. Затем мы просматриваем этот список, выполняя 
слияния вида І-с-1, что дает упорядоченные подсписки размером 2, затем мы про- 
сматриваем полученный список, выполняя при этом слияния вида 2-с-2, что даст упо- 
рядоченный подсписок размером 8, и так далее до тех пор, пока весь список не ста- 
нет упорядоченным. Завершающий подсписок не всегда может оказаться того же 
размера, что и все другие, если размер файла не является степенью 2, тем не менее, 
можно слить и его. 

Если размер файла является степенью 2, то множество слияний, выполняемых вос- 
ходящей сортировкой слиянием, в точности совпадает со слияниями, выполняемыми 
рекурсивной сортировкой слиянием, однако последовательность слияний будет другой. 
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Восходящая сортировка слиянием соответствует прохождению дерева типа "разделяй 
и властвуй" в порядке уровней, снизу вверх. В противоположность этому, мы обра- 
щались к рекурсивному алгоритму как к нисходящей сортировке слиянием , поскольку 
при обратном порядке прохождения дерева просмотр начинается сверху и следует 
вниз по дереву. 

Если размер файла не может быть представлен степенью 2, восходящий алгоритм 
дает другое множество слияний, как показано на рис. 8.5. Восходящий алгоритм со- 
ответствует дереву, построенному по принципу "объединяй и властвуй" (см. упражне- 
ние 5.75), который отличается от дерева типа "разделяй и властвуй", относящемуся к 
категории нисходящих алгоритмов. Однако вполне можно устроить так, чтобы пос- 
ледовательность слияний, порожденных рекурсивным методом, была такой же, как 
и аналогичная последовательность, полученная в рамках нерекурсивного метода, тем 
не менее, нет особых причин делать это, поскольку разница в затратах на их реали- 
зацию по отношению к общим затратам незначительная. 

Леммы 8.1— 8.4 справедливы и для восходящей сортировки слиянием, при этом 
имеют место следующие дополнительные леммы: 

Лемма 8.5. Все слияния на каждом проходе восходящей сортировки слиянием манипу- 
лируют файлами , размер которых выражен степенью 2, за исключением разве что раз- 
мера последнего файла. 

Это факт легко установить методом индукции. 

Лемма 8.6. Количество проходов при восходящей сортировке слиянием по файлу из N 
элементов в точности равно числу бит в двоичном представлении N (при этом ведущие 
нули игнорируются). 

На каждом проходе восходящей сортировки слиянием размер упорядоченных под- 
файлов удваивается, так что размер подсписков после к проходов составит 2 к . Та- 
ким образом, количество проходов, необходимое для сортировки файла из N эле- 
ментов, есть наименьшее к такое, что 2 к > N 1 точной величиной к является П&/ѴІ, 
т.е. количество бит в двоичном представлении N. Это можно доказать методом ин- 
дукции или путем анализа структурных свойств деревьев типа "объединяй и вла- 
ствуй". 


РИСУНОК 8.5. РАЗМЕРЫ ФАЙЛОВ ПРИ 
ВОСХОДЯЩЕЙ СОРТИРОВКЕ СЛИЯНИЕМ 

Схемы восходящей сортировки слиянием 
кардинально отличаются от схем , 
применяемым при нисходящей 
сортировке слиянием (рис. 8.3), когда 
размер файла не является степенью 2. 
Что касается восходящей сортировки 
слиянием, то все размеры подфайлов, 
исключая, возможно, последний, 
являются степенью 2. Эти различия 
представляют интерес для понимания 
базовых структур алгоритмов, однако на 
производительности сортировки они 
отражаются лишь незначительно. 
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РИСУНОК 8.6. ВОСХОДЯЩАЯ 
СОРТИРОВКА СЛИЯНИЕМ 

Нам потребуется всего лишь 
семь проходов, чтобы 
отсортировать 200 элементов , 
применяя для этой цели 
восходящую сортировку 
слиянием. На каждом проходе 
количество отсортированных 
подфайлов уменьшается вдвое, 
зато их длина удваивается (за 
исключением разве что 
последнего подфайла). 





Процесс выполнения восходящей сортировки слиянием показан на рис. 8.6. Сор- 
тировка 1 миллиона элементов выполняется за 20 проходов по данным, 1 миллиар- 
да за 30 проходов и т.д. 

Кратко подводя итоги, отметим, что нисходящие и восходящие сортировки суть 
два достаточно простых алгоритма, в основу которых положена операция слияния 
двух упорядоченных подфайлов в результирующий объединенный упорядоченный 
файл. Оба алгоритма тесно связаны между собой и даже выполняют одно и то же 
множество слияний, если размер исходного файла является степенью 2, но они от- 
нюдь не идентичны. Рисунок 8.7 демонстрирует различия динамических характери- 
стик алгоритмов на примере большого файла. Каждый алгоритм может использовать- 
ся на практике, если речь не идет об экономии пространства памяти и желательно 
обеспечить гарантированное время выполнения для наихудшего случая. Оба алгорит- 
ма представляют интерес как прототипы более универсальных алгоритмов типа "раз- 
деляй и властвуй" и "объединяй и властвуй". 

Упражнения 

8 . 24 . Показать, какие слияния выполняет нисходящая сортировка слиянием (про- 
грамма 8.5) на ключах ЕА8УС21ІЕ8ТІОІЧ. 

8 . 25 . Реализовать восходящую сортировку слиянием, которая начинает с того, что 
сортирует блоки по М элементов каждый методом вставок. Определить эмпиричес- 
ким путем значение М , для которого разработанная программа выполняется бы- 
стрее всего при сортировке файлов с произвольной организацией, содержащих N 
элементов при N = ІО 3 , 10 4 , ІО 5 и ІО 6 . 

8 . 26 . Нарисовать деревья, которые отображают слияния, выполняемые програм- 
мой 8.5 для N — 16, 24, 31, 32, 33 и 39. 

8 . 27 . Написать программу рекурсивной сортировки слиянием, которая выполня- 
ет те же слияния, что и восходящая сортировка слиянием. 

8 . 28 . Написать программу восходящей сортировки слиянием, которая выполняет 
те же слияния, что и нисходящая сортировка слиянием. (Это упражнение намно- 
го труднее, чем упражнение 8.27). 
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8.29. Предположим, что размер файла является 
степенью 2. Удалите рекурсию из нисходящей 
сортировки слиянием, чтобы получить нерекур- 
сивную сортировку слиянием, которая выполня- 
ет ту же последовательность слияний. 

8.30. Доказать, что количество проходов, выпол- 
няемых нисходящей сортировкой слиянием, 
также представляется числом бит в двоичном 
представлении (см. лемму 8.6). 

8.6. Производительность 
сортировки слиянием 

Таблица 8.1 характеризует относительную эф- 
фективность различных усовершенствований из 
числа рассмотренных выше. Как это часто бывает, 
такие исследования показывают, что время выпол- 
нения сортировки можно сократить наполовину и 
даже больше, если направить усилия на улучшения 
внутреннего цикла алгоритма сортировки. 

Помимо погони за усовершенствованиями, рас- 
смотренными в разделе 8.2, можно добиться даль- 
нейших улучшений производительности за счет 
того, что наименьшие элементы в обоих массивах 
будут содержатся в простых переменных или в ре- 
гистрах процессора во избежание ненужных досту- 
пов к массивам. Таким образом, внутренний цикл 
сортировки слиянием может быть, в основном, све- 
ден к операциям сравнения (с условным перехо- 
дом), к увеличению на единицу значений двух счет- 
чиков (к и одного из і или ]) и проверке условия 
завершения цикла с условным переходом. Общее 
количество команд во внутреннем цикле несколь- 
ко превышает этот показатель для быстрой сорти- 
ровки, однако такие команды выполняются всего 
лишь N раз, в то время как команды внутрен- 
него цикла выполняются в рамках быстрой сорти- 
ровки на 39 процентов чаще (или на 29 процентов 
в случае ее варианта с вычислением медианы из 
трех элементов). Чтобы выполнить точное сравне- 
ние этих двух алгоритмов в конкретной среде, сле- 
дует воспользоваться более совершенной реализа- 
цией и провести более подробный анализ. Тем не 
менее, точно известно, что внутренний цикл сор- 
тировки слиянием несколько длиннее внутреннего 
цикла быстрой сортировки. 



РИСУНОК 8.7. СРАВНЕНИЕ 
ВОСХОДЯЩЕЙ СОРТИРОВКИ 
СЛИЯНИЕМ С НИСХОДЯЩЕЙ 
СОРТИРОВКОЙ СЛИЯНИЕМ 

Восходящая сортировка слиянием 
(слева) состоит из 
последовательности проходов по 
файлу , которые выполняют слияние 
отсортированных подфайлов до тех 
пор , пока не останется только один 
подфайл. Каждый элемент файла , 
за исключением разве что 
нескольких в самом конце , 
используется в каждом проходе. 

В противоположность этому, 
нисходящая сортировка слиянием 
(справа) сортирует первую половину 
файла, прежде чем перейти ко 
второй половине (в рекурсивном 
режиме), так что схемы 
выполнения обеих видов сортировки 
слиянием существенно различаются. 
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Таблица 8.1. Эмпирические исследования алгоритмов сортировки слиянием 


Представленные здесь относительные временные показатели различных видов сор- 
тировки на файлах чисел с плавающей точкой с произвольной организацией для 
различного числа N отражают следующие факты: стандартная быстрая сортировка 
выполняется в два раза быстрее стандартной сортировки слиянием; добавление от- 
сечения файлов небольших размеров снижает время выполнения нисходящей и вос- 
ходящей сортировок слиянием примерно на 15 процентов; для заданных в табли- 
це размеров файлов быстродействие нисходящей сортировки слиянием примерно 
на 10 процентов выше, чем восходящей; даже если устранить затраты на копиро- 
вание файла, то и в этом случае сортировка слиянием файлов с произвольной орга- 
низацией на 50-60 процентов медленнее простой быстрой сортировки (см. табл. 
7.1). 


сверху вниз снизу вверх 


N 

О 

Т 

Т* 

О 

В 

В* 

12500 

2 

5 

4 

4 

5 

4 

25000 

5 

12 

8 

8 

11 

9 

50000 

11 

23 

20 

17 

26 

23 

100000 

24 

53 

43 

37 

59 

53 

200000 

52 

111 

92 

78 

127 

110 

400000 

109 

237 

198 

168 

267 

232 

800000 

241 

524 

426 

358 

568 

496 


Ключи: 

О Стандартная быстрая сортировка (программа 7.1) 

Т Сортировка нисходящая слиянием, стандартная (программа 8.1) 

Т* Сортировка нисходящая слиянием с отсечением файлов небольших размеров 

О Сортировка нисходящая слиянием с отсечением и без копирования массива 

В Стандартная сортировка восходящая слиянием (программа 8.5) 

В* Сортировка восходящая слиянием с отсечением файлов небольших размеров 


По обыкновению мы должны выразить предостережение относительно того, что 
погоня за усовершенствованиями подобного рода, перед которой не в состоянии ус- 
тоять многие программисты, могут в некоторых случаях приносить всего лишь не- 
значительные выгоды и должны быть реализованы только после того, как будут сняты 
более важные вопросы. В таких случаях сортировка слиянием будет обладать явно 
выраженным превосходством перед быстрой сортировкой в том, что она устойчива и 
обеспечивает высокую скорость сортировки, равно как и недостатками, которые про- 
являются прежде всего в том, что она использует дополнительное пространство па- 
мяти, пропорциональное размерам массива. Если совокупность этих факторов скла- 
дывается в пользу сортировки слиянием (при этом большое значение имеет 
быстродействие), то предложенные усовершенствования заслуживают внимательно- 
го рассмотрения наряду с тщательным изучением программного кода, порожденного 
компиляторами, специальных свойств архитектуры машины и пр. 
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РИСУНОК 8.8. ВОСХОДЯЩАЯ СОРТИРОВКА СЛИЯНИЕМ РАЗЛИЧНЫХ ВИДОВ ФАЙЛОВ 

Время выполнения сортировки слиянием не чувствительно к организации входных данных. 
Приводимые здесь диаграммы показывают , что количество проходов, выполненное в рамках 
восходящей сортировки слиянием на файлах с произвольной организацией, на файлах с распределением 
Гаусса, на почти упорядоченных файлах, на почти обратно упорядоченных файлах и на файлах с 
произвольной организацией, обладающих 10 различными ключами (слева направо), зависит только от 
размера файла и не зависит от того, какими являются входные значения. Подобное поведение 
находится в резком противоречии с поведением быстрой сортировки и поведением множества других 
алгоритмов. 
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С другой стороны, следует также повторить обычное предостережение о том, что 
программисты никогда не должны упускать из виду вопросов производительности во 
избежание совершенно неоправданных издержек. Все программисты (равно как и 
авторы) испытывают затруднения, когда несущественные, но вовремя не замеченные 
свойства реализации, выступают на передний план и подавляют все другие хитроум- 
ные механизмы реализации. Достаточно распространенной является ситуация, когда 
обнаруживается возможность уменьшить время выполнения той или иной реализа- 
ции в два раза в тот момент, когда она подвергается тщательному анализу именно 
под этим углом зрения. Регулярное тестирование является наиболее эффективным 
защитным средством, позволяющим избегать подобных неприятных сюрпризов, ко- 
торые, как известно, возникают в самый неподходящий момент. 

Мы достаточно подробно рассматривали эти моменты в главе 5, однако привле- 
кательность преждевременной оптимизации настоль сильна, что каждый раз, когда 
изучается возможность применения того или иного метода усовершенствования ре- 
ализации гіа таком уровне детализации, целесообразно подумать об улучшении самих 
методов. Что касается оптимизации сортировки слиянием, то здесь можно чувствовать 
себя вполне спокойно, ибо программы 8.1— 8.4 обладают всеми наиболее важными ха- 
рактеристиками производительности, которые исследовались выше: время их выпол- 
нения пропорционально УѴ1о§УѴ, они нечувствительны к организации входных дан- 
ных (см. рис. 8.8), они используют дополнительное пространство памяти, они могут быть 
реализованы с сохранением свойства устойчивости. Сохранение этих свойств в процес- 
се снижения времени выполнения в общем случае не является особо трудной задачей. 

Упражнения 

8.31. Реализовать восходящую сортировку слиянием без копирования массивов. 

8.32. Разработать программу трехуровневой гибридной сортировки, использую- 
щую быструю сортировку, сортировку слиянием и сортировку вставками с целью 
получить метод, который по производительности не уступает наиболее эффектив- 
ной быстрой сортировке (даже для малых файлов), но в то же время может гаран- 
тировать в наихудшем случае производительность с квадратичной зависимостью. 

8.7. Реализация сортировки слиянием, 

ориентированной на связные списки 

Для практической реализации в любом случае требуется дополнительное простран- 
ство памяти, так почему бы не рассмотреть возможность реализации сортировки сли- 
янием, ориентированной на связные списки? Другими словами, чем тратить допол- 
нительное пространство памяти на вспомогательный массив, не лучше ли 
использовать его для хранения связей? Иначе можно столкнуться с проблемой пред- 
варительной сортировки связного списка (см. раздел 6.9). Как оказалось, сортиров- 
ка слиянием может быть успешно использована для сортировки связных списков. 
Полная реализация функции сортировки связных списков представлена в програм- 
ме 8.6. Обратите внимание на то обстоятельство, что в данном случае программа фак- 
тического слияния столь же проста, как и программа процедуры слияния, ориенти- 
рованная на массивы (программа 8.2). 
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Имея в своем распоряжении такую функцию слияния, легко получить рекурсив- 
ную нисходящую сортировку слиянием списков. Программа 8.7 является прямой ре- 
курсивной реализацией функции, которая принимает в качестве входного парамет- 
ра указатель на неупорядоченный список и возвращает указатель на список, 
содержащий те же элементы в отсортированном порядке. Эта программа выполняет 
свою работу, переупорядочивая узлы списка — память не резервируется ни для вре- 
менных узлов, ни для списков. Для нахождения середины списка программа 8.7 ис- 
пользует следующий прием: разные реализации могут делать это либо передавая длину 
списка как параметр в рекурсивную программу, либо сохраняя длину в самом спис- 
ке. Такая программа в рекурсивной формулировке проста для понимания, даже если 
реализует достаточно сложный алгоритм. 

Восходящий подход "объединяй и властвуй" можно также применить и по отноше- 
нию к сортировке слиянием связных списков, хотя необходимость отслеживать свя- 
зи со всеми подробностями делают его более сложным, чем он кажется на первый 
взгляд. Как было установлено в разделе 8.3 при рассмотрении нисходящих методов, 
ориентированных на работу с массивами, при разработке алгоритма восходящей сор- 
тировки списков слиянием не существует особых причин придерживаться точно того 
же набора операций слияния, которые выполняют рекурсивная версия или версия, 
использующая массивы. 

Программа 8.6. Слияние связных списков 

Данная программа сливает список, на который указывает а, со списком, на кото- 
рый указывает Ь, с помощью вспомогательного указателя с. Операция сравнения 
ключей в функции тегде включает равенство, так что слияние будет устойчивым, 
если по условию список Ь следует за списком а. Для простоты принимаем, что все 
списки завершаются символом 0. Другие соглашения, касающиеся завершающих 
элементов в списках, также работают (см. табл. 3.1). Что еще важнее, мы не исполь- 
зуем заголовочные узлы списка во избежание их распространения. 

Ііпк тегде (Ііпк а, Ііпк Ь) 

{ посіе Нитту(О); Ііпк Ьеасі = &Цитту, с = Ьеасі; 
ѵЬіІе ((а != 0) && (Ъ != 0)) 

(а“>і”Ьет < Ъ”>і*Ьет) 

{ с->пех*Ь = а; с = а ; а = а->пехЪ; } 
еізе 

{ с->пех-Ь = Ъ; с = Ъ; Ъ = Ь->пех , Ь; } 
с->пех*Ь = (а == 0) ? Ъ : а; 

геѣигп ЬеаН-^пех-Ь; 

} 


Одна из забавных версий восходящей сортировки связных списков слиянием, ко- 
торую нетрудно сформулировать, напрашивается сама собой: поместить элементы 
списка в циклический список, после чего перемещаться по списку, сливая пары упо- 
рядоченных подфайлов до тех пор, пока дело не будет сделано. Этот метод концеп- 
туально прост, однако (как это имеет место в случае низкоуровневых программ, ра- 
ботающих со связными списками) для их реализации требуется проявить недюжинную 
изобретательность (см. упражнение 8.36). Другая версия восходящей сортировки связ- 
ных списков слиянием, в основу которой положена та же идея, представлена в про- 
грамме 8.8: содержать все сортируемые списки в рамках АТД очереди. Этот метод 
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также отличается концептуальной простотой, однако (как это имеет место в случае 
высокоуровневых программ, работающих со связными списками) для их реализации 
также требуется изобретать различные хитроумные способы. 

Одно из важных свойств заключается в том, что этот метод способен извлечь 
пользу из любого порядка, который может присутствовать в исходном файле. В самом 
деле, количество проходов через список определяется не выражением ПвАЛ, но ско- 
рее Г 18*51, г Д е есть число упорядоченных подфайлов в исходном массиве. Этот ме- 
тод иногда называется естественной сортировкой слиянием. Что касается файлов с 
произвольной организацией, то в этом случае от данного метода трудно ожидать осо- 
бых выгод, поскольку можно сэкономить разве что один-два прохода (на самом деле 
этот метод, по-видимому^ будет обладать меньшим быстродействием, что обусловлено 
затратами на дополнительные проверки с целью определить, какой порядок установ- 
лен в файле), однако на практике достаточно часто встречаются файлы, состоящие из 
блоков упорядоченных подфайлов; в таких ситуациях рассматриваемый метод ока- 
жется достаточно эффективным. 

Программа 8.7. Сортировка связных списков слиянием сверху вниз 

!■! ———————— ■ ■ ■■■ — — — — — ■■ ■ ■ ■ — — — — ■ ■ 

Эта программа выполняет сортировку, разбивая список, на который указывает с, на 
две части, на которые указывают, соответственно, а и Ь, подвергая сортировке обе 
эти части в рекурсивном режиме, с последующим использованием функции тегде 
(программа 8.6) для получения окончательного результата. В конце входного фай- 
ла должен стоять символ 0 (и следовательно, список Ь также должен завершаться 
нулем), а явно определенная команда с->пехІ = 0 помещает 0 в конец списка а. 

Ііпк тегдевогѣ (Ііпк с) 

{ 

(с == 0 || с->пехЪ == 0) геЪигп с; 

Ііпк а = с , Ь = с->пехЪ; 

ѵгЫІе ( (Ь != 0) && (Ъ->пѳхѣ != 0)) 

{ с = с->пех-Ь; Ь = Ь^пехѣ^пехѣ; } 

Ь = с-^пехѣ; с->пех-Ь = 0; 

геѣигп тегде (тегдезогѣ (а) , тегдезогѣ (Ь) ) ; 

> 


Программа 8.8. Восходящая сортировка связных списков слиянием 

Эта программа использует АТД очереди (программа 4.18) для реализации восхо- 
дящей сортировки слиянием. Элементы очереди представляют собой упорядоченные 
связные списки. После инициализации очереди списком длиной 1, программа про- 
сто удаляет из очереди два списка, сливает их, а полученный результат возвращает 
в эту же очередь и продолжает процесс до тех пор, пока в очереди не останется 
только один список. Это соответствует последовательности проходов через все эле- 
менты, при этом на каждом проходе длина упорядоченных списков удваивается, как 
и в случае восходящей сортировки слиянием. 

Ііпк тегдезогѣ (Ііпк 1) 

{ 0ЦЕЦЕ<1іпк> О(тах); 
іі: ("Ь == 0 || ѣ->пехѣ == 0) геѣигп Ь; 

іог (Ііпк и = 0 ; Ь !== 0; Ь = и) 

{ и = -Ь->пехЪ; ѣ->пехѣ = 0; ^.риЬ(Ь) ; } 

1 = <2.деЪ() ; 
ѵгЬіІе ( Іф.етр-Ьу () ) 

{ О.риЪ(ѣ) ; ѣ « тегде (О . двѣ ( ) , <2 . деЬ ()) ; } 

геѣигп Ь; 
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Упражнения 

• 8.33. Разработать реализацию нисходящей сортировки связных списков слиянием, 
работающей со списками, которые содержат собственные длины в заголовочных 
узлах, и применяющей эти длины с целью определения способа разбивания спис- 
ков на части 

• 8 . 34 . Разработать реализацию восходящей сортировки связных списков слиянием, 
работающей со списками, которые содержат собственные длины в заголовочных 
узлах, и применяющей эти длины с целью определения способа разбиения списков 
на части. 

8 . 35 . Добавить в программу 8.7 отсечение подфайлов малых размеров. Определить 
пределы, в рамках которых правильный выбор размеров отсекаемых файлов ус- 
коряет действие полученной программы. 

о 8.36. Реализовать восходящую сортировку слиянием применительно к цикличес- 
кому связному списку, описание которого содержится в тексте. 

8 . 37 . Добавить отсечение подфайлов малых размеров в восходящую сортировку 
слиянием связных списков из упражнения 8.36. Определить пределы, в рамках ко- 
торых правильный выбор размеров отсекаемых файлов ускоряет действие полу- 
ченной программы. 

8 . 38 . Добавить в программу 8.7 отсечение подфайлов малых размеров. Определить 
пределы, в рамках которых правильный выбор размеров отсекаемых файлов ус- 
коряет действие полученной программы. 

о 8.39. Нарисовать дерево типа "объединяй и властвуй", которое отображает слия- 
ния, которые выполняет программа 8.8 для N = 16, 24, 31, 32, 33 и 39. 

8 . 40 . Нарисовать дерево типа "объединяй и властвуй", которое подводит итог сли- 
яниям, выполняемым сортировкой слиянием на циклическом списке (упражнение 
8.38) для УѴ= 16, 24, 31, 32, 33 и 39. 

8 . 41 . Выполнить эмпирические исследования с целью выдвижения гипотезы, ка- 
сающейся числа упорядоченных подфайлов в массиве из N случайных 32-разряд- 
ных целых чисел. 

• 8 . 42 . Определить эмпирическим путем количество проходов, необходимых для вы- 
полнения естественной сортировки слиянием случайных 64-разрядных ключей при 
N = 10 3 , ІО 4 , ІО 5 и ІО 6 . Совет : чтобы выполнить это упражнение, не обязательно 
пользоваться сортировкой (и даже не нужно генерировать полные 64-разрядные 
ключи). 

• 8 . 43 . Преобразовать программу 8.8 в процедуру естественной сортировки слияни- 
ем, предварительно заполнив очередь упорядоченными подфайлами, которые со- 
держатся во входном файле. 

о 8 . 44 . Реализовать естественную сортировку слиянием применительно к массивам. 




Глава 8, Слияние и сортировка слиянием 


353 


8.8. Возврат к рекурсии 

Программы, представленные в данной главе, и быстрая сортировка, которая рас- 
сматривалась в предыдущей главе, — суть типичные алгоритмы типа "разделяй и вла- 
ствуй". Мы ознакомимся с несколькими алгоритмами подобной структуры в после- 
дующих главах, так что более пристальное изучение основных характеристик 
соответствующих программных реализаций представляется вполне оправданным. 

Быструю сортировку более корректно было бы назвать алгоритмом типа " разделяй 
и властвуй в рекурсивных реализациях после активизации программы большая часть 
работы выполняется перед рекурсивными вызовами. С другой стороны, рекурсивная 
сортировка слиянием еще больше выдержана в духе принципа "разделяй и властвуй": 
прежде всего, файл делится на две части, затем обработке ("воздействию власти") по 
отдельности подвергаются обе части. Сначала сортировке слиянием подвергаются 
файлы небольших размеров, в заключение обработке подвергается самый большой 
подфайл. Быстрая сортировка начинается с обработки наибольшего подфайла и за- 
вершается обработкой подфайлов небольших размеров. Интересно провести сравне- 
ние этих алгоритмов в контексте аналогии с управлением коллективом сотрудников, 
приводимой в начале настоящей главы: быстрая сортировка соответствует тому, что 
каждый руководящий работник затрачивает свои усилия на то, чтобы правильно раз- 
бить задачу на подзадачи, так что работа будет успешно выполнена, если успешно 
выполнены все подзадачи, в то время как сортировка слиянием соответствует тому, 
что каждый руководящий работник выполняет быструю произвольную разбивку за- 
дачу напополам, а затем затрачивает все свои усилия на то, чтобы преодолеть послед- 
ствия подобных действий после того, как соответствующие подзадачи будут решены. 

Это различие ясно показывает наличие в нерекурсивных реализациях двух мето- 
дов. Быстрая сортировка должна поддерживать стек, поскольку она должна сохранять 
большие подзадачи, которые дробятся в зависимости от организации входных дан- 
ных. Сортировка слиянием допускает простые нерекурсивные реализации, поскольку 
способ разбиения файла на части не зависит от природы данных, благодаря чему ста- 
новится возможным изменение очередности, в которой она решает подзадачи, и это 
обстоятельство позволяет упростить программу. 

Можно, конечно, приводить доводы в пользу того, что быструю сортировку сле- 
дует рассматривать как нисходящий алгоритм, поскольку он начинает работу на вер- 
шине дерева рекурсии, а затем спускается вниз, дабы завершить сортировку. Мож- 
но также подумать и о нерекурсивной сортировке, которая проходит через дерево 
рекурсии снизу вверх, но вдоль уровней. Таким образом, сортировка многократно 
проходит по массивам, дробя файлы на подфайлы меньших размеров. Применительно 
к массивам этот метод не имеет широкого практического применения, что объясня- 
ется высокими затратами ресурсов для отслеживания подфайлов; однако, примени- 
тельно к связным спискам он аналогичен восходящей сортировке слиянием. 

Мы также отметили, что сортировка слиянием и быстрая сортировка отличаются 
друг от друга в плане проблемы устойчивости. В случае сортировки слиянием, если 
предположить, что подфайлы отсортированы с соблюдением концепции устойчивос- 
ти, то вполне достаточно того, чтобы слияние проводилось в устойчивом режиме, а 
это вполне достижимо. Рекурсивная структура алгоритма немедленно приводит к 
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индуктивному доказательству устойчивости. Что касается реализации быстрой сорти- 
ровки, ориентированной на массивы, то простого способа устойчивого разбиения 
файлов не видно, так что возможность положительного решения проблемы устойчи- 
вости исключается еще до того, как рекурсия вступит в дело. Тем не менее, прямо- 
линейная реализация быстрой сортировки применительно к связным спискам явля- 
ется устойчивой (см. упражнение 7.4). 

Как было показано в главе 5, алгоритмы с одним рекурсивным вызовом могут 
быть сведены к циклу, но алгоритмы с двумя рекурсивными циклами, подобные сор- 
тировке слиянием или быстрой сортировке, открывают двери в мир алгоритмов типа 
"разделяй и властвуй" и древовидных структур, в котором отводится место и для на- 
ших лучших алгоритмов. Сортировка слиянием и быстрая сортировка заслуживают 
тщательного изучения не только из-за их важного практического значения, но и в 
силу того, что они позволяют глубже погрузиться в сущность рекурсии, которая мо- 
жет сослужить добрую службу при разработке и понимании других рекурсивных ал- 
горитмов. 

Упражнения 

• 8 . 45 . Предположим, что сортировка слиянием реализована таким образом, что 
дробление файла осуществляется в произвольной точке, а не точно в середине 
файла. Сколько операций сравнения выполняются в среднем по этому методу для 
сортировки N элементов? 

• 8.46. Провести анализ эффективности сортировки слиянием при сортировке строк. 
Сколько в среднем нужно выполнить операций сравнения символов при сорти- 
ровке файлов больших размеров? 

• 8 . 47 . Провести эмпирические исследования с целью сравнения эффективности 
быстрой сортировки связных списков (см. упражнение 7.4) и нисходящей сорти- 
ровки слиянием связных списков (программа 8.7). 



Очереди по 
приоритетам и 
пирамидальная 
сортировка 

В о многих приложениях требуется обработка записей с 
упорядоченными определенным образом ключами, 
но не обязательно в строгом порядке и не обязательно 
все сразу. Часто мы накапливаем некоторый набор запи- 
сей, после чего обрабатываем запись с максимальным зна- 
чением ключа, затем, возможно, накопление записей про- 
должается, потом обрабатывается запись с наибольшим 
текущим ключом и т.д. Соответствующая структура дан- 
ных в подобного рода средах поддерживает операции 
вставки нового элемента и удаления наибольшего эле- 
мента. Такая структура данных называется очередью по 
приоритетам. Использование очереди по приоритетам по- 
добно использованию обычных очередей (удаляется са- 
мый старый элемент) и стеков (удаляется самый новый 
элемент), однако их эффективная реализация представля- 
ет собой довольно трудную задачу. Очередь по приорите- 
там является наиболее важным примером обобщенного 
абстрактного типа данных (АТД), которые обсуждались в 
разделе 4.6. Фактически, очередь по приоритетам пред- 
ставляет собой оправданное обобщение стека и очереди, 
поскольку эти структуры данных можно реализовать по- 
средством очередей по приоритетам, используя соответ- 
ствующий механизм установки приоритетов (см. упражне- 
ния 9.3 и 9.4). 

Определение 9.1. Очередь по приоритетам представля- 
ет собой структуру элементов с ключами , которая под- 
держивает две основные операции: вставку нового элемен- 
та и удаление элемента с наибольшим значением ключа. 
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Приложениями очередей по приоритетам являются системы моделирования, в рам- 
ках которых ключи могут соответствовать моментам возникновения событий, что 
обеспечивает возможность их обработки в хронологическом порядке; системы плани- 
рования заданий в компьютерных системах, где ключи могут соответствовать при- 
оритетам, указывающим, какой из пользователей должен быть обслужен первым; а 
также численные расчеты, в которых ключами могут быть ошибки в вычислениях, в 
которых приоритеты показывают, что наиболее грубая ошибка должна быть исправ- 
лена первой. 

Любую очередь по приоритетам можно использовать как основу для алгоритма 
сортировки, устанавливая все записи в очередь, а затем последовательно исключая из 
нее наибольшие текущие записи, чтобы получить последовательность записей в об- 
ратном порядке. Далее в книге будет показано, как следует использовать очередь по 
приоритетам в качестве строительных блоков для более совершенных алгоритмов. В 
части 5 мы разработаем алгоритм сжатия файлов, использующий программы из дан- 
ной главы, в главе 7 увидим, как очереди по приоритетам могут служить подходящими 
абстракциями для упрощения понимания взаимоотношений между множеством фун- 
даментальных алгоритмов поиска в графах. Здесь упомянуто всего лишь несколько 
примеров той важной роли, которую играют очереди по приоритетам как базовые 
инструментальные средства при разработке алгоритмов. 

На практике очереди по приоритетам намного сложнее, чем это следует из толь- 
ко что сформулированного простого определения, поскольку существуют несколько 
других операций, которые могут потребоваться для поддержки очередей при всех ус- 
ловиях, которые могут возникнуть во время их использования. И в самом деле, одна 
из основных причин того, что многие реализации очереди с приоритетами находят 
широкое практическое применение, заключается в их гибкости, позволяющей клиен- 
тским программам выполнять различные операции над наборами записей с ключами. 
Необходимо построить и поддерживать структуры данных, содержащие записи с чис- 
ловыми ключами ( приоритетами ), которые поддерживают некоторые из следующих 
операций: 

■ Создать ( сотігисі ) очередь по приоритетам из N заданных элементов, 

■ Вставитъ (іпзегі) новый элемент, 

■ Удалить наибольший (гетоѵе іНе тахітит) элемент, 

■ Изменить приоритет (скап%е іНе ргіогііу) произвольно выбранного элемента, 

■ Удалить (гетоѵе) произвольно выбранный элемент, 

■ Объединить Ооіп) две очереди но приоритетам в одну. 

Если записи имеют дублированные ключи, мы считаем, что "наибольший" означает 
"любая запись с максимальным значением ключа". Как и в случае других структур 
данных, в этот набор потребуется добавить стандартные операции создать , проверить 
наличие элементов и, возможно, операции уничтожить и копировать . 

Имеются области, в которых эти операции взаимно перекрываются, а в некото- 
рых случаях удобно дать определения других, подобных операций. Например, у не- 
которых клиентских программ часто возникает необходимость найти наибольший фпй 
іНе тахітит) элемент в очереди по приоритетам без его удаления из очереди. Или же 
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понадобится операция заменить наибольший (геріасе іЬе гпахішиш) элемент новым 
элементом. Мы можем реализовать подобного рода операции за счет использования 
в качестве строительных блоков две базовых операции: операцию найти наибольший 
можно представить через операцию удалить наибольший и следующую за ней опера- 
цию вставить , а операцию заменить наибольший можно представить либо через опе- 
рацию вставить и следующую за ней удалить наибольший , либо через операцию уда- 
лить наибольший и следующую за ней вставить. Однако более эффективный 
программный код обычно получается за счет реализации таких операций непосред- 
ственно, при условии, что в них существует потребность и существует их точное опи- 
сание. Точное описание не всегда однозначно, как это может показаться на первый 
взгляд. Например, только что сформулированные два варианта операции заменить 
наибольший (геріасе іНе тахітит) существенно отличаются друг от друга: первый из них 
приводит к тому, что размер очереди временно увеличивается на один элемент, а во 
втором в очередь каждый раз вставляется новый элемент. Аналогично, операция из- 
менить приоритет может быть реализована как удалить с последующей операцией 
вставить , а операция построить может быть реализована как многократное приме- 
нение операции вставить . 

Для некоторых приложений более удобным может оказаться поменять ориентацию 
на обратную и работать с наименьшими элементами, а не с наибольшими. Мы пред- 
почитаем работать, главным образом, с очередями по приоритетам, которые настро- 
ены на доступ к наибольшим ключам, а не к наименьшим. Когда потребуется про- 
тивоположная ориентация, мы будем называть ее (т.е. очередь по приоритетам, 
которая позволит удалять наименьший элемент (гетоѵе іНе тіпітит)) очередью по при- 
оритетам, ориентированной на минимальный элемент (тіпітит-огіепіесі). 

Программа 9.1. Базовый тип абстрактных данных очереди по приоритетам 

Данный интерфейс определяет операции над простейшим типом очереди по 
приоритетам: инициализировать, проверить наличие, добавить новый элемент, удалить 
наибольший элемент. Элементарные программные реализации этих функций 
обеспечивают в наихудшем случае линейное время их выполнения на массивах и 
списках, но в этой главе встретятся реализации, для которых время выполнения всех 
операций гарантировано не превосходит величины, пропорциональной логарифму 
количества элементов в очереди. Как обычно, параметр конструктора определяет 
максимальное число элементов, ожидаемых для размещения в очереди, причем 
некоторые реализации могут его игнорировать. 

ѣетріаѣе <с1азз Іѣет> 
сіазз РО 

{ 

ргіѵаѣе : 

// Программный код, который зависит от реализации 
риЫіс: 

РО (іпѣ) ; 

іпѣ етрѣу() сопзѣ; 

ѵоісі іпзегѣ (Іѣет) ; 

Іѣет деѣтах() ; 

}; 
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Эта очередь по приоритетами суть прототипный АТД (см. главу 4): он представляет 
четко определенный набор операций над данными и является удобным абстрактным 
понятием, которое позволяет отделять прикладные программы (клиенты) от различ- 
ных приложений, которые предстоит рассмотреть в настоящей главе. Интерфейс, за- 
данный программой 9.1, определяет большую часть базовых операций над очередью 
по приоритетам; более полный интерфейс рассматривается далее в разделе 9.5. Строго 
говоря, различные подмножества различных операций, которые мы предпочтем 
включить в свой рабочий набор, приводит к различным абстрактным структурам дан- 
ных, но для очередей по приоритетам наиболее характерными являются операции 
удалить наибольший (гетоѵе-іИе-тахітит) и вставить (ітегі), поэтому им и будет уде- 
ляться основное внимание. 

Различные реализации очередей по приоритетам обладают различными рабочими 
характеристиками в зависимости от того, какие операции должны выполняться, а 
различные приложения требуют эффективного выполнения различных наборов опе- 
раций. И в самом деле, различия в рабочих характеристиках в принципе могут быть 
единственным видом различий, которые возникают при использовании понятия абст- 
рактного типа данных. Такого рода ситуация приводит к различным компромиссам 
в отношении затрат. В данной главе анализируются различные пути достижения по- 
добного рода компромиссов. Мы почти приблизимся к идеалу в смысле возможнос- 
ти выполнить операцию удалить наибольший за время, которое находится в логариф- 
мической зависимости от числа элементов в очереди, а все остальные операции — за 
постоянное время. 

Сначала это положение иллюстрируется в разделе 9.1 на примере анализа несколь- 
ких элементарных структур данных, предназначенных для реализации очередей по 
приоритетам. 

Далее, в разделах 9.2— 9.4 внимание сосредоточивается на рассмотрении клас- 
сической структуры данных, получившей название сортирующее дерево (Иеар), ко- 
торая обеспечивает эффективную реализацию всех операций, кроме операции 
объединить. Кроме того, в разделе 9.4 исследуется важный алгоритм сортировки, 
который естественным образом вытекает из этих реализаций. После этого мы бо- 
лее подробно проанализируем некоторые проблемы, связанные с разработкой 
полных АТД очереди по приоритетам, в разделах 9.5 и 9.6. И в завершение, в раз- 
деле 9.7 рассматриваются более сложные структуры данных, получившие название 
биномиальных очередей (Ьіпотіаі диеие), которые используются для реализации всех 
операций (в том числе и операции объединить) в наихудшем случае логарифмичес- 
кой зависимости времени выполнения. 

В процессе исследований всего разнообразия структур данных не следует упускать 
из виду как основные компромиссы, достигнутых между связным и последователь- 
ным распределением памяти (см. главу 3), так и проблемы, возникающие при орга- 
низации пакетов, используемых прикладными программами. В частности, некоторые 
из алгоритмов с улучшенными свойствами, описания которых появится позже в этой 
книге, представляют собой клиентские программы, которые используют очереди по 
приоритетам. 
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Упражнения 

\> 9.1. Буква означает операцию вставить , а звездочка — операцию удалить наиболь- 
ший элемент из последовательности РКЮ*К**І*Т*Ѵ***0иЕ***ІІ*Е. 

Дать последовательность значений, возвращаемых операциями возвратить наиболь- 
ший элемент. 


> 9.2. Добавить к условиям упражнения 9.1 знак плюс, 
означающий операцию объединить , и круглые скобки 
для ограничения пределов очереди по приоритетам, 
построенной операциями, заключенными в эти скоб- 
ки. Показать содержимое очереди по приоритетам, 
соответствующее последовательности 

(((РКІО)+(К*ІТ*Ѵ*))***) + (01Ш***1]*Е). 

о 9.3. Объяснить, как использовать АТД очереди по 
приоритетам для реализации АТД стека. 

о 9.4. Объяснить, как использовать АТД очереди по 
приоритетам для реализации АТД очереди. 

9.1. Элементарные реализации 

Базовые структуры данных, которые обсуждались в 
главе 3, предоставляют множество различных возможно- 
стей для реализации очередей по приоритетам. Програм- 
ма 9.2 демонстрирует реализацию, которая в качестве 
базовой структуры данных использует неупорядоченный 
массив. Операция найти наибольший элемент реализуется 
следующей последовательностью действий: сначала про- 
изводится просмотр массива с целью обнаружения наи- 
большего элемента, затем осуществляется замена наи- 
большего элемента на последний элемент с последующим 
уменьшением размера очереди на единицу. На рис. 9.1 
показано содержимое массива для тестовой последова- 
тельности операций. Базовая реализация соответствует 
тем реализациям, которые можно было бы видеть в гла- 
ве 4 для стеков и очередей небольших размеров (см. про- 
граммы 4.7 и 4.15) и полезны при работе с очередями не- 
больших размеров. Основные различия между ними 
связаны с их производительностью. Для стеков и очере- 
дей есть возможность разрабатывать реализации всех 
операций, которые выполняются за постоянное время; 
что касается очередей по приоритетам, то легко отыскать 
такие реализации, в рамках которых одна из функций 
вставить или удалить наибольший выполняется за посто- 
янное время, однако найти реализацию, в которой про- 
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РИСУНОК 9.1. ПРИМЕР 
ОЧЕРЕДИ ПО ПРИОРИТЕТАМ 
(ПРЕДСТАВЛЕНИЕ ДАННЫХ В 
ВИДЕ НЕУПОРЯДОЧЕННОГО 
МАССИВА) 

Эта последовательность 
отражает результаты 
выполнения некоторой 
последовательности операций 
елевой колонке (сверху вниз), 
при этом буквы обозначают 
операцию вставка, а 
звездочка — операцию 
удалить наибольший. 
Каждая строка отображает 
операцию, удаляемую в 
результате выполнения 
каждой операции удалить 
наибольший букву и 
содержимое массива после 
выполнения этой операции. 
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извод ительность обоих операций достаточно высока, — весьма непростая задача, и это 
является предметом разговора в данной главе. 

Можно использовать упорядоченные и неупорядоченные последовательности, 
реализованные в виде связных списков или массивов. Выбор в пользу того, оставить 
элементы неотсортированными или разместить их в определенном порядке, опреде- 
ляется тем, что упорядоченная совокупность элементов позволяет выполнить опера- 
ции удалить наибольший или найти наибольший за постоянное время, но это также оз- 
начает необходимость прохода по всему списку, чтобы выполнить операцию вставить. 
Неупорядоченная последовательность элементов позволяет выполнить операцию 
вставить за постоянное время, а для операции удалить наибольший или найти наиболь- 
ший потребуется просмотреть весь список. Неупорядоченность представляет собой 
прототипный "ленивый " подход к решению проблемы, в рамках которого выполнение 
работы откладывается до тех пор, пока это не станет необходимым (в данном слу- 
чае, поиск наибольшего элемента); упорядоченная последовательность представляет 
собой прототипный "энергичный " подход к решению проблемы, когда заранее выпол- 
няется максимально возможный объем работы (поддержка списка отсортированным 
на случай выполнения операции вставка ), дабы обеспечить максимальную эффектив- 
ность последующих операций. В любом из этих случаев можно использовать представ- 
ление данных в виде массива или связного списка, при этом основная альтернатива 
состоит в том, что (двух) связный список позволяет выполнять операцию удалитъ (и 
в случае неупорядоченных данных операцию объединить) за постоянное время, но 
требует большего объема памяти для хранения связей. 


Программа 9.2. Реализация очереди по приоритетам с использованием массивов 


Эта реализация, которую можно сравнить с реализациями стеков и очередей с 
использованием массивов, которые рассматривались в главе 4 (см. программы 4.7 и 
4.15), хранит элементы в неупорядоченном массиве. Элементы добавляются в конец 
массива и удаляются с конца массива, как это имеет место в стеке. 


ѣетрІа'Ье <с1азз Пет> 
сіазз РО 

{ 


I ■Ьвт *ря ; 

Іпѣ И; 
риЫіс: 

РО (іігЬ шахИ) 

{ ря = пек Нот [тахЯ] ; N = 0 ; } 

іпЪ ешрЪуО сопзѣ 

{геѣигп N = 0 ; } 

ѵоісі іпзегѣ (Нет Нет) 

{ ря[И++] = Нет; } 

Нет деѣтах( ) 

{іпѣ шах = 0; 

±от (іпЪ з = 1; з<И; з++) 

Н (ря[тах] < ряЕз!) тах = 3; 
ѳхсЬ(ря[тах] , ряЕЯ-1] ) ; 
геѣигп ряЕ — И] ; 
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Таблица 9.1. Стоимость операций, поддерживающих очередь по приоритетам, для 
наихудшего случая 

Показатели производительности реализации АТД очереди по приоритетам колеблются 
в широких пределах, что следует из данной таблицы, содержащей временные 
показатели для наихудшего случая (в пределах постоянного множителя для больших А/) 
в условиях различных методов. Элементарные методы (первые четыре строки) требуют 
для выполнения некоторых операций постоянного времени и линейного времени для 
остальных; более совершенные методы гарантируют постоянное или линейное время 
выполнения для большего числа или даже для всех операций. 

Удалить Найти Изменить 

Вставить наибольший Удалить наибольший приоритет Объединить 


упорядоченный массив 

N 

1 

N 

і 

N 

N 

упорядоченный список 

N 

і 

1 

1 

N 

N 

неупорядоченный массив 

1 

N 

1 

N 

1 

N 

неупорядоченный список 

1 

N 

1 

N 

1 

1 

сортирующее дерево 

ідА/ 

ІдА/ 

ідА/ 

1 

ідА/ 

N 

биномиальная очередь 

ідА/ 

ідА/ 

ідА/ 

ІдА/ 

ідА/ 

ідА/ 

теоретически наилучший 

і 

ІдА/ 

ІдА/ 

і 

і 

і 


Для наихудшего случая в условиях различных реализаций показатели стоимости 
различных операций (пределах постоянного коэффициента) для очереди по приори- 
тетам размера N сведены в таблицу 9.1. 

При разработке завершенной реализации необходимо соблюдать все интерфейс- 
ные требования — в особенности то, как клиентские программы осуществляют дос- 
туп к узлам при выполнения операций удалить и изменить приоритет , и как они осу- 
ществляют доступ к самим очередям по приоритетам как к типам данных при 
выполнении операции объединить . Эти проблемы изучаются разделах 9.4 и 9.7, в ко- 
торых рассматриваются две завершенных реализации: в одной реализации использу- 
ются двухсвязные неупорядоченные списки, а в другой — биномиальные очереди. 

Время выполнения клиентской программы, использующей очереди по приорите- 
там, зависит не только от ключей, но также и от смеси различных операций. Не сле- 
дует упускать из виду простые реализации, поскольку во многих практических ситу- 
ациях они довольно часто оказываются эффективнее более сложных методов. 
Например, реализация, работающая с неупорядоченными списками, может оказать- 
ся приемлемой в приложениях, в которых выполняются лишь немногие операции уда- 
лить наибольший и в то же время очень большое количество вставок, тогда как упо- 
рядоченный список лучше подходит в тех случаях, когда выполняется большое число 
операций найти наибольший либо когда вставляемые элементы преимущественно боль- 
ше уже находящихся в очереди по приоритетам. 

Упражнения 

> 9.5. Найти недостатки следующей идеи: почему бы для реализации операции най- 
ти наибольший фпд іНе тахітит) не отслеживать максимальное значение из числа 
элементов, включенных на текущий момент, а затем возвращать это значение как 
результат операции? 
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[> 9 . 6 . Показать содержимое массива после выполнения последовательности опера- 
ций из рис. 9.1. 

9 . 7 . Напишите реализацию основного интерфейса очереди по приоритетам, кото- 
рый использует упорядоченный массив в качестве базовой структуры данных. 

9 . 8 . Напишите программную реализацию основного интерфейса очереди по при- 
оритетам, которая использует неупорядоченный связный список в качестве базо- 
вой структуры данных Совет : см. программу 4.8 и 4.14. 

9 . 9 . Напишите программную реализацию основного интерфейса очереди по при- 
оритетам, который использует упорядоченный связный список в качестве базовой 
структуры данных Совет : см. программу 3.11. 

о 9 . 10 . Рассмотреть "ленивую" реализацию, в условиях которой список упорядочи- 
вается только когда выполняются операции удалить наибольший или найти наиболь- 
ший. Вставки, сделанные с момента предыдущей сортировки, содержатся в отдель- 
ном списке, затем они сортируются и при необходимости подвергаются слиянию. 
Рассмотреть преимущества такой реализации перед элементарными реализация- 
ми, в основу которых положены неупорядоченные и упорядоченные списки. 

• 9 . 11 . Написать клиентскую программу-драйвер, которая использует функцию 
іпзегі для заполнения очереди по приоритетам, затем функцию §е1тах для удале- 
ния половины ключей, затем снова іп§егі для заполнения очереди, после чего для 
удаления всех ключей используется §еітах, и все это проделывается многократ- 
но над случайными последовательностями ключей различной длины, изменяющей- 
ся в широких пределах. Кроме того, программа должна измерять время, затрачен- 
ное на каждое выполнение программы, и распечатывать или строить графики 
среднего времени выполнения. 

• 9.12. Написать клиентскую программу, представляющую собой драйвер произво- 
дительности, которая использует функцию іп§ег1 для заполнения очереди по при- 
оритетам, затем выполняет функции §е!тах и іп§егі столько раз, сколько она спо- 
собна их выполнить в течение 1 секунды на случайных последовательностях 
ключей разной длины, значения которой колеблются в широких пределах, от ма- 
лых до больших. Программа должна измерять время, затраченное на каждое вы- 
полнение программы, и распечатывать или строить графики среднего числа фун- 
кций §е1шах, которое удалось выполнить. 

9 . 13 . Воспользуйтесь клиентской программой из упражнения 9.12, чтобы сравнить 
реализацию неупорядоченного массива, представленную программой 9.2, с реали- 
зацией неупорядоченного списка из упражнения 9.8. 

9 . 14 . Воспользуйтесь клиентской программой из упражнения 9.12, чтобы сравнить 
реализацию упорядоченного массива с реализацией упорядоченного списка из уп- 
ражнений 9.7 и 9.9. 

• 9 . 15 . Написать клиентскую программу-драйвер, которая использует функции ин- 
терфейса очереди по приоритетам из программы 9.1 в трудных и патологических 
случаях, которые могут встретиться в практических реализациях. В категорию про- 
стых случаев входят уже упорядоченные ключи, ключи, установленные в обратном 
порядке, случаи, когда все ключи одинаковы и когда последовательности ключей 
содержат только два различных значения. 
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9.16. (За этим упражнением на самом деле стоят 24 упражнения.) Докажите пра- 
вильность границ, установленных для 4 элементарных реализаций, представлен- 
ных в таблице 9.1, используя для доказательства реализацию операций вставить 
(іпзегі) и удалить наибольший (гетоѵе іНе тахітит) из программы 9.2, и реализации, 
выполненные в упражнениях 9.7— 9.9, а также формальное описание методов ре- 
ализации других операций. Что касается операций удалить (гетоѵе), изменить при- 
оритет (скап%е ргіогііу) и объединить (]оіп ), предположите, что имеется средство, 
обеспечивающее прямой доступ к объекту ссылки. 


9.2. Пирамидальная структура данных 

Основной темой настоящей главы является простая структура данных, получившая 
название сортирующего дерева ( Иеар ), которая может эффективно поддерживать основ- 
ные операции в очереди по приоритетам. В сортирующем дереве записи хранятся в 
виде массива таким образом, что каждый ключ обязательно принимает значение боль- 
шее, чем значения двух других ключей, занимающих относительно него строго оп- 
ределенные положения. В свою очередь, каждый 
из этих ключей должен быть больше, чем два 
других определенных ключа и т.д. Подобное упо- 
рядочение легко обнаружить, если рассматривать 
эти ключи как входящие в бинарную древовид- 
ную структуру с ребрами, идущими от каждого 
ключа к двум другим ключам, о которых извест- 
но, что они меньше его по значению. 



1 2 3 4 5 6 7 8 9 1011 12 
ХТООЗМЫАЕВА I 


Определение 9.2. Дерево называется пирами- 
дально упорядоченным (Иеар-огдегеф, если 
ключ в каждом его узле больше или равен ключам 
всех потомков этого узла (если таковые имеют- 
ся). Эквивалентная формулировка: ключ в каж- 
дом узле пирамидально упорядоченного дерева 
меньше или равен ключу узла , который является 
родителем данного узла. 

Лемма 9.1. Ни один из узлов пирамидально упо- 
рядоченного дерева не может иметь ключа, боль- 
шего чем ключ корня дерева. 

На любое дерево можно наложить ограниче- 
ния, обусловленные пирамидальной упорядочен- 
ностью. Однако особенно удобно пользоваться 
полным бинарным деревом (сотріеіе Ыпагу ігее). Из 
главы 3 известно, что мы можем начертить та- 
кую структуру, поместив в верхней части страни- 
цы корневой узел, а затем спускаясь вниз по 
странице и перемещаясь слева направо, подсое- 
динять к каждому конкретному узлу предыдуще- 
го уровня два узла текущего уровня до тех пор, 
пока не будут помещены все N узлов. Достаточ- 


РИСУНОК 9.2. ПРЕДСТАВЛЕНИЕ 
ПОЛНОГО ДВОИЧНОГО ДЕРЕВА В ВИДЕ 
ПИРАМИДАЛЬНО УПОРЯДОЧЕННОГО 
МАССИВА 

Если рассматривать элемент в позиции 
|_//2] массива как родителя элемента в 
позиции і, для 2 < і < N (или, что 
эквивалентно, считая і-й элемент 
родителем 2 і-го и 2 Ж -го элементов), 
то становится возможным удобное 
представление совокупности элементов 
массива в виде дерева. Такое 
соответствие эквивалентно нумерации 
полного двоичного дерева (элементы на 
нижнем уровне нумеруются, начиная с 
самого левого) по уровням. Дерево 
называется пирамидально 
упорядоченным, если ключ любого 
заданного узла больше или равен 
ключам узлов потомков. Сортирующее 
дерево есть представление в виде 
массива полного упорядоченного 
двоичного дерева, і-й элемент 
сортирующего дерева больше или равен 
по величине 2 і-го и 2і+\-го элементов. 
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но просто представить полное бинарное дерево в виде массива, поместив корневой 
узел в позицию 1, его потомков в позицию 2 и 3, узлы следующего уровня в позиции 
4, 5, 6, 7 и т.д., как показано на рис. 9.2. 

Определение 9.3. Сортирующее дерево есть совокупность узлов с ключами , образующих 

полное пирамидально упорядоченное бинарное дерево, представленное в виде массива. 

Можно было бы воспользоваться связным представлением пирамидально упоря- 
доченных деревьев, но полные деревья предоставляют возможность задействовать 
компактное представление в виде массива, в котором легко переходить с некоторо- 
го узла к его родителю или к его предкам без необходимости поддержки явных свя- 
зей. Родителя узла, находящегося в позиции /, необходимо искать в позиции Ь* /2], и, 
соответственно, два потомка узла в позиции і находятся в позициях 2/ и 2/ + 1. При 
подобной организации прохождение по такому дереву выполняется проще, чем если 
бы это дерево было реализовано в связном представлении, поскольку в таком случае 
могут понадобиться связи дерева, принадлежащие каждому ключу, чтобы иметь воз- 
можность перемещаться вверх и вниз по дереву (каждый элемент будет иметь один 
указатель на родителя и один указатель на каждого потомка). Полные бинарные де- 
ревья, представленные в виде массивов, являются жесткими структурами, но все же 
обладают достаточной гибкостью, чтобы позволить реализовать эффективные алго- 
ритмы, манипулирующие очередями по приоритетам. 

В разделе 9.3 мы убедимся в том, что можем воспользоваться сортирующими де- 
ревьями для реализации всех операций на очередях по приоритетам (за исключени- 
ем операции объединить) таким образом, что на свое выполнение они в худшем слу- 
чае потребуют логарифмическое время. Все такие реализации функционируют вдоль 
некоторого пути в сортирующем дереве (перемещаясь от родителя к потомкам по 
направлению вниз или от потомка к родителю по направлению вверх, не меняя при 
этом направления движения). Как уже было показано в главе 3, все пути в полном 
дереве, состоящем из N узлов, содержат в себе порядка 1§УѴ узлов: примерно N/2 уз- 
лов находятся на самом нижнем уровне, N/4 узлов — потомки которых занимают 
нижний уровень, тѴ/8 узлов — "внуки" которых занимают нижний уровень и т.д. Каж- 
дое следующее поколение узлов содержит наполовину меньше узлов, чем предыду- 
щее, всего же может быть максимум 1§УѴ поколений. 

Можно также воспользоваться явными связными представлениями древовидной 
структуры для разработки эффективных реализаций операций над очередями по при- 
оритетам. В качестве примеров рассматриваются полные деревья с тремя связями (см. 
раздел 9.5), сортировка повторной выборкой (см программу 5.19) и биномиальные 
очереди (см. раздел 9.7). Как и в случае простых стеков и очередей, одна из главных 
причин, побуждающих рассматривать связные представления, заключается в том, что 
они освобождают от необходимости заранее знать максимальные размеры очереди, 
что требуется в обязательном порядке в случае представления в виде массива. Мы 
также можем извлечь в некоторых ситуациях определенную пользу из гибкости, обес- 
печиваемой связными структурами, при разработке эффективных алгоритмов. Чита- 
телям, которые не имеют достаточного опыта использования ядных древовидных 
структур, мы настоятельно рекомендуем прочитать главу 12, чтобы изучить базовые 
методы реализации даже более важных абстрактных типов данных, таких как сим - 
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вольные таблицы , прежде чем иметь дело со связными представлениями деревьев, рас- 
сматриваемых в упражнениях этой главы и в разделе 9.7. Однако внимательное изу- 
чение связных структур можно оставить до второго чтения, поскольку основной те- 
мой настоящей главы является сортирующее дерево (представление в виде массива 
без связей полного пирамидально упорядоченного дерева). 

Упражнения 

> 9 . 17 . Является ли массив, отсортированный в нисходящем порядке, сортирующим 
деревом? 

о 9 . 18 . Наибольший элемент сортирующего дерева должен появиться в позиции 1, 
а второй наибольший элемент должен занимать позицию 2 или 3. Представьте спи- 
сок позиций в сортирующем дереве из 15 элементов, в котором к - й наибольший 
элемент (і) может появиться и (іі) не может появиться, для к - 2, 3, 4 (в предпо- 
ложении, что все значения попарно различны). 

• 9 . 19 . Решить задачу 9.18 для общего значения к как функции от УѴ, представляю- 
щего собой размер сортирующего дерева. 

• 9 . 20 . Решить задачи 9.18 и 9.19 для &-го наименьшего элемента. 

9.3. Алгоритмы для сортирующих деревьев 

Все алгоритмы очередей по приоритетам для сортирующих деревьев работают та- 
ким образом, что сначала вносят простое изменение, способное нарушить структу- 
ру пирамиды, затем выполняют проход вдоль пирамиды, внося при этом в сортиру- 
ющее дерево такие изменения, которые гарантируют, что структура сортирующего 
дерева сохраняется везде. Этот процесс иногда называют установлением пирамидаль- 
ного порядка (Иеарі/уіп%). Возможны два случая. Когда приоритет какого-либо узла уве- 
личивается (или в нижний уровень сортирующего дерева добавляется новый узел), 
мы должны двигаться вверх по дереву, чтобы восстановить структуру сортирующего 
дерева. Когда приоритеты каких-либо узлов уменьшаются (например, при замене 
корневого узла новым узлом), необходимо пройти вниз по дереву, чтобы восстано- 
вить структуру сортирующего дерева. Для начала обсудим, как реализовать две эти 
базовые функции, а затем подумаем, как их использовать в различных операциях с 
очередями по приоритетам. 

Если свойства сортирующего дерева нарушены из-за того, что ключ некоторого 
узла становится больше ключа родительского узла, можно сделать шаг в направлении 
исправления этого нарушения, обменяв местами этот узел с его родителем. После 
обмена этот узел становится больше, чем оба его потомка (один из них — это пре- 
жний родитель, другой меньше, чем старый родитель, поскольку он был потомком 
этого узла), но все еще может оставаться больше своего родителя. Мы можем устра- 
нить и это нарушение аналогичным способом и продвигаться далее вверх по дереву, 
пока не достигнем узла с наибольшим ключом, каковым является корень дерева. 
Пример описанного процесса показан на рис. 9.3. Программа проста и понятна, в ее 
основе лежит тот факт, что родитель узла, занимающего позицию к в сортирующем 
дереве, находится в позиции к/ 2 этого дерева. Программа 9.3 представляет собой ре- 
ализацию функции, которая восстанавливает возможные нарушения, обусловленные 
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увеличением приоритета в заданном узле сорти- 
рующего дерева, благодаря продвижению вверх 
по дереву. 

Программа 9.3. Восходящая установка структуры 
сортирующего дерева 

Чтобы восстановить пирамидальную структуру после 
того, как приоритет одного из узлов сортирующего 
дерева изменился, мы продвигаемся вверх по дереву, 
меняя при необходимости местами узел в позиции к с 
его родителем (который находится в позиции к/2) и 
продолжаем этот процесс до тех пор, пока 
выполняется условие а[к/2] < а[к] или пока не 
выйдем в вершину сортирующего дерева. 

< Ьетр1а , Ье Ссіазз Іѣет> 
ѵоісі ^іхЦрСІ-Ьет а[] , іггЬ к) 

{ 

ѵЛііІе (к > 1 && а [к/2] < а [к] ) 

{ ехсЬ (а [к], а [к/2]); к = к/2; } 

} 


Если свойство пирамидальности сортирующе- 
го дерева было нарушено в силу того, что ключ 
какого-либо узла становится меньше, чем один 
или оба ключа его потомков, выполняются шаги 
с целью устранения нарушения путем замены 
узла на больший из его двух потомков. Такая за- 
мена может вызвать нарушение свойств сортиру- 
ющего дерева на узле-потомке; это нарушение 
устраняется аналогичным путем и выполняется 
продвижение вниз по дереву до тех пор, пока не 
будет достигнут узел, оба потомка которого 
меньше его самого, либо нижний уровень дере- 
ва. Пример процесса показан на рис. 9.4. Опять- 
таки, программный код учитывает то обстоятель- 
ство, что потомки узла сортирующего дерева в 
позиции к занимают в нем позиции 2к и 2к+1. 




РИСУНОК 9.3. ВОСХОДЯЩАЯ 
УСТАНОВКА СТРУКТУРЫ 
СОРТИРУЮЩЕГО ДЕРЕВА 

На верхнем дереве , показанном на 
диаграмме , установлен пирамидальный 
порядок , в который не вписывается 
узел Т на нижнем уровне. Если мы 
поменяем Т местами с его родителем , 
дерево остается пирамидально 
упорядоченным, за исключением разве 
что того случая, когда Т оказывается 
больше своего нового родителя. 
Продолжая обмен местами узла Т со 
своими родителями до тех пор, пока 
мы не выйдем на своем пути на 
корневой узел, либо на узел, который 
больше Т, мы можем установить 
пирамидальный порядок во всем дереве. 
Мы можем использовать эту 
процедуру в качестве основы для 
операции іпзегі (вставить) , 
выполняемой на сортирующих деревьях 
с целью восстановления 
пирамидального порядка после 
добавления в это дерево нового 
элемента (крайнюю правую позицию 
на нижнем уровне, вводя в дереве при 
необходимости новый уровень). 


Программа 9.4 содержит реализацию функции, которая восстанавливает сортирующее 
дерево после возможных нарушений по причине повышения приоритета заданного 
узла, перемещаясь вниз по этому дереву. Эта функция должна знать размер сорти- 
рующего дерева (ІЧ), чтобы иметь возможность отследить момент, когда будет достиг- 
нут нижний уровень дерева. 

Обе эти операции не зависят от способа представления структуры дерева, если 
возможен доступ к родителям (восходящий метод) и к потомкам (нисходящий метод) 
любого узла. В случае восходящего метода мы перемещаемся вверх по дереву, заме- 
няя ключ заданного узла ключом его родителя до тех пор, пока не выйдем на кор- 
невой узел или на родителя с большим (или равным) ключом. В случае нисходящего 
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метода мы перемещаемся вниз по дереву, заме- 
няя ключ заданного узла большим из ключей его 
потомков до тех пор, пока не достигнем нижне- 
го уровня или точки, в которой нет потомков с 
большими ключами. В обобщенном виде упомя- 
нутые операции применимы не только к би- 
нарным деревьям, но и к любой древовидной 
структуре. Усовершенствованные алгоритмы, ма- 
нипулирующие очередями по приоритетам, обыч- 
но ориентированы на древовидные структуры 
общего вида, но в то же время полагаются имен- 
но на эти базовые операции, обеспечивающие 
доступ к наибольшим ключам этой структуры, 
сосредоточенным в ее верхней части. 

Если вообразить себе, что некоторое сорти- 
рующее дерево представляет иерархию некой 
корпорации, в котором каждый потомок пред- 
ставляет подчиненное подразделение (и каждый 
родитель представляет собой вышестоящее 
подразделение), то эти операции допускают 
любопытные аналогии. Восходящий метод со- 
ответствуют появлению на сцене нового перс- 




пективного управляющего, который продвигает- 
ся по служебной лестнице с одного поста на 
другой, более высокий (обмениваясь служебными 
обязанностями с любым начальником, имеющим 
более низкую квалификацию) до тех пор, пока 
этот новый работник не столкнется с более ква- 
лифицированным начальником. Нисходящий ме- 
тод аналогичен ситуации, когда президента неко- 
торой компании сменяет на его посту некто, 
уступающий ему по квалификации. Если какой- 
либо из подчиненных президента, обличенный 

наибольшими полномочиями, превосходит по совокупности качеств нового работни- 
ка, они обмениваются своими обязанностями, и мы двигаемся вниз по служебной 
лестнице, понижая в должности нового работника и повышая других, пока не будет 
достигнут уровень компетенции нового работника, когда не остается ни одного под- 
чиненного, превосходящего нового работника по квалификации (этот идеализиро- 
ванный сченарий в реальной жизни встречается редко). Продолжая эту аналогию, 
движение по сортирующему дереву часто будет называться продвижением. 


РИСУНОК 9.4. НИСХОДЯЩАЯ 
УСТАНОВКА СТРУКТУРЫ 
СОРТИРУЮЩЕГО ДЕРЕВА 

Дерево , изображенное в верхней части 
диаграммы, почти везде пирамидально 
упорядочено, исключением является 
корень дерева. Если заменить узел О 
большим из его потомков (X), то 
рассматриваемое дерево приобретает 
пирамидальный порядок, за 
исключением поддерева с корнем в узле 
О. Продолжая обмен местами с 
большим из его двух потомков до тех 
пор, пока не будет достигнут нижний 
уровня пирамиды или точка, в которой 
О больше любого из своих потомков, 
можно восстановить условие 
пирамиды на всем дереве. Этой 
процедурой можно воспользоваться в 
качестве основы для операции гетоѵе 
іНе тахітит (удалить наибольший) в 
сортирующем дереве с целью 
восстановить пирамидальный порядок 
после замены ключа в корне дерева на 
ключ, который находится на нижнем 
уровне в крайней правой позиции. 


Программа 9.4. Нисходящая установка структуры сортирующего дерева 

Чтобы восстановить пирамидальную структуру в случае, когда приоритет узла 
понижается, мы двигаемся вниз по сортирующему дереву, меняя при необходимости 
местами узел в позиции к с большим из его двух потомков, и останавливаемся, когда 
узел в позиции к не превышает какой-либо из двух своих потомков, или когда 
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достигнут нижний уровень. Обратите внимание на то обстоятельство, что если N есть 
четное число и к равно N/2, то узел в позиции к имеет только одного потомка — этот 
случай требует особого подхода! 

Внутренний цикл в этой программе имеет два четко определенных выхода: один для 
случая, когда достигнут нижний уровень сортирующего дерева, а другой для случая, когда 
условия сортирующего дерева удовлетворяются где-то внутри дерева. Этот случай может 
служить прототипным примером необходимости существования конструкции Ьгеак. 

ЬетрІаЬе <с 1 азз ІЬет> 

ѵоісі ^іхБсжп (ІЬет а[ ], іпЬ. к, іпЬ. И) 

{ 

ѵііііе ( 2 *к <= К) 

{ іпЬ з = 2*к ; 

(з < N && а[з] < а[з+1]) з++; 

(!(а[к] < а[з])) Ьгеак; 
ехсЬ (а [к], а[з]); к = 3 ; 

} 

} 


Программа 9.5. Очередь по приоритетам на базе сортирующего дерева 

Чтобы реализовать операцию вставки, мы увеличиваем N на 1, добавляем новый 
элемент в конец сортирующего дерева, а затем при помощи функции ЯхІІр 
восстанавливаем пирамидальный порядок. При выполнении функции деітах (получить 
наибольший) размер сортирующего дерева должен быть уменьшен на 1, таким 
образом, мы выбираем в качестве возвращаемого значения величину ря[1 ], затем 
уменьшаем размер сортирующего дерева на 1, перемещая значение ря[Ы] в ря[1], 
после чего выполняем функцию ііхОоѵѵп с целью восстановить в дереве пирамидальный 
порядок. Реализации конструктора и функции етріу предельно тривиальны. Первая 
позиция РЧ[0] массива здесь не используется, но она может быть задействована в 
качестве сигнальной метки в других реализациях. 

■ЬѳшрІаЬе <с 1 азз І-Ьет> 
сіазз РО 
{ 

ргіѵаЪе : 

I Ъет *рд ; 

ІпЬ И; 

РиЫіс : 

РО(іпЪ тахИ) 

{рд = пеѵг ІЬет [тахК+1 ] ; N = 0 ; } 

іпЪ етрЬу( ) сопзЬ 

{геЬигп N==0; } 

ѵоісі іпзѳгЬ (І'Ьвт, іЬвт) 

{рд[++И] = іЬвт; ^іхЦр(рд, I*;} 

I Ьет де -Ьтах ( ) 

{ 

ехсЬ(рд[ 1 ], рд[п] ); 

^іхО<жп(рд, 1, N-1 ); 
геЪигп рд[И--] ; 

} 

} ; 


Как показывает программа 9.5, эти две основные операции позволяют построить 
эффективную реализацию АТД очереди по приоритетам. Если очередь по приорите- 
там представлена как пирамидально упорядоченный массив, использование операции 
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вставить (іпзегі) равносильно добавлению нового эле- 


мента в конец массива и перемещение этого элемента 
по массиву с целью восстановления структуры сортиру- 
ющего дерева; операция удалить наибольший (гетоѵе іНе 
тахітит) равносильна удалению наибольшего элемента 
из вершины дерева с последующим размещением эле- 
мента, находящегося в конце дерева, в его вершине и 
перемещением его вниз вдоль массива с целью восста- 
новления структуры сортирующего дерева. 

Лемма 9.2. Операции вставить (іпзегі) и удалить наи- 
больший (гетоѵе іНе тахітит) для абстрактного типа 
данных могут быть реализованы на пирамидально упо- 
рядоченных деревьях таким образом , что операция 
вставить требует для своего выполнения на очереди, 
состоящей из N элементов, не более 1§7Ѵ сравнений, а 
операция удалить наибольший — не более 2 1§ѵѴ сравне- 
ний. 

Обе операции предусматривают перемещение вдоль 
пути между корнем и нижним уровнем дерева, при 
этом ни один путь вдоль сортирующего дерева, со- 
стоящего из N элементов, не содержит более \%N 
элементов (см. например, лемму 5.8 и упражнение 
5.77). Операция удалить наибольший требует двух 
сравнений для каждого узла: одну для того, чтобы 
найти потомка с большим ключом, другую — для 
того, чтобы принять решение, нужно ли продвигать 



РИСУНОК 9.5. ПОСТРОЕНИЕ 
СОРТИРУЮЩЕГО ДЕРЕВА 
СВЕРХУ ВНИЗ 

Представленная 
последовательность диаграмм 
описывает операцию вставки 
ключей А 8 О К ТІ N О в 


этого потомка. 

На рис. 9.5 и 9.6 показаны примеры, в рамках кото- 
рых выполняется построение сортирующего дерева пу- 
тем последовательной вставки элементов в первона- 
чально пустое сортирующее дерево. В представлении 
сортирующего дерева в виде массива, которое исполь- 
зовалось ранее, этот процесс соответствует пирамидаль- 
ному упорядочению массива, при этом каждый раз, 
когда мы переходим к новому элементу, размер сорти- 
рующего дерева увеличивается на 1, а для восстановле- 
ния пирамидального порядка используется функция 
Й8ІІр. В худшем случае на выполнение этого процесса 


первоначально пустое 
сортирующее дерево. Новые 
узлы добавляются в 
сортирующее дерево на нижнем 
уровне в направлении слева 
направо. Каждая вставка 
затрагивает только узлы, 
которые находятся на пути 
между точкой вставки и 
корнем , поэтому затраты в 
худшем случае пропорциональны 
логарифму размера 
сортирующего дерева. 


требуется время, пропорциональное (когда каждый новый элемент превосхо- 


дит по величине все предыдущие, т.е. он проделывает весь путь к корню дерева), но 
в среднем на это требуется линейное время (новый элемент произвольной природы 
поднимается всего лишь на несколько уровней). В разделе 9.4 будет рассматривать- 
ся способ построения сортирующего дерева (установления в массиве пирамидально- 
го порядка) за линейное время в худшем случае. 
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Базовые процедуры ЯхІІр и ПхБо^п из программ 
9.3 и 9.4 позволяют получить прямую реализацию опе- 
раций изменить приоритет (сНаще ргіогііу) и удалитъ 
(гетоѵе). Для изменения приоритета элемента, нахо- 
дящегося где-то в середине сортирующего дерева, 
применяется процедура Пхіір для перемещения вверх 
по дереву, если приоритет элемента увеличивается, и 
процедура ЯхОоип для перемещения вниз по дереву, 
если приоритет уменьшается. Полная реализация этих 
процедур применительно к конкретным элементам 
данных имеет смысл, только если для каждого эле- 
мента имеется дескриптор, отслеживающий место это- 
го элемента в структуре данных. Мы подробно рас- 
смотрим реализации, которые выполняют эти 
действия, в разделах 9.5— 9.7. 

Лемма 9.3. Операции изменить приоритет (скаще 
ргіогііу), удалить (гетоѵе) и изменить приоритет 
(сНаще ргіогііу) для ЛТД очередь по приоритетам мо- 
гут быть реализованы через сортирующие деревья , 
такие, что для любой из указанных выше операций 
требуется выполнение не более чем 2 1§УѴ операций 
сравнения на очереди из N элементов. 

Поскольку эти операции требуют наличия специ- 
альных дескрипторов, отложим рассмотрение ре- 
ализаций, поддерживающих эти операции, до раз- 
дела 9.7 (см. программу 9.12 и рис. 9.14). Все они 
предусматривают движение по сортирующему де- 
реву вдоль одного пути, возможно, сверху вниз 
или снизу вверх в худшем случае. 

Специально обращаем внимание на тот факт, что 
в этот список не включена операция объединитъ Ооіп). 
Эффективное объединение двух очередей по приори- 
тетам, по-видимому, потребует более сложной струк- 
туры данных, которая будет подробно рассматривать- 
ся в разделе 9.7. С другой стороны, представленный 
здесь простой метод, в основу которого положен пи- 
рамидальный порядок, вполне достаточен для боль- 
шинства различных приложений. Он использует ми- 
нимальное дополнительное пространство памяти и 
обеспечивает высокую эффективность выполнения 
операций за исключением тех случаев, когда часто и 
на больших объемах данных выполняются операции 
объединить. 








РИСУНОК 9.6. ПОСТРОЕНИЕ 
СОРТИРУЮЩЕГО ДЕРЕВА СВЕРХУ 
ВНИЗ (ПРОДОЛЖЕНИЕ) 

Представленная 
последовательность диаграмм 
отображает процедуру вставки 
ключей ЕХАМРЬЕв 
сортирующее дерево , построение 
которого было начато на рис. 

9.5. Общая стоимость 
построения сортирующего дерева 
размером N составляет 1§ 1 + 1§2 
+...+ 1§УѴ, что меньше ЛП§Л/. 
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Как уже отмечалось выше и как продемонстрировано 
в программе 9.6, любую очередь по приоритетам можно 
использовать для построения еще одного метода сорти- 
ровки. Мы просто вставляем все подлежащие сортировке 
ключи в очередь по приоритетам, а затем многократно 
используем операцию удалить наибольший , чтобы удалять 
их в порядке убывания приоритетов. Такое использования 
очереди по приоритетам, представленной в виде неупоря- 
доченного списка, соответствует выполнению сортировки 
выбором, а применение упорядоченного списка соответ- 
ствует выполнению сортировки вставками. 

Программа 9.6. Сортировка с использованием очереди по 
приоритетам 

Чтобы отсортировать подмассив а[1 а[г], используя для 

этой цели АТД очереди по приоритетам , следует при помощи 
функции іпвегі (вставить) поместить элементы в очередь по 
приоритетам, а затем с использованием функции деітах 
(найти наибольший) удалять их в порядке убывания значений 
приоритетов. Подобный алгоритм сортировки выполняется за 
время, пропорциональное Л/ІдЛ/, но при этом он требует 
дополнительного объема памяти, пропорционального количеству 
сортируемых элементов N (в очереди по приоритетам). 

#іпс1исіе "РО.схх" 

‘ЬетрІа'Ье Ссіазв И:ет> 

ѵоісі РфзогЪ (І'Ьвт а[] , іп'Ь 1, іпі: г) 

{ іп'Ь к ; 

РОСІѢвп^ рд (г-1+1) ; 

±ог (к = 1; к <= г; к++) рд. іпзегѣ (а [к] ) ; 

±ог (к = г; к >= 1; к — ) 
а [к] = рд. де Шах () ; 

} 








На рис. 9.5 и 9.6. показан пример первой фазы (процесс 
построения), на которой используется реализация очере- 
ди по приоритетам с пирамидальным порядком; на рис. 
9.7 и 9.8 представлена вторая фаза (которую будем назы- 
вать нисходящей сортировкой — зогісіохѵп). В условиях прак- 
тических применений этот метод не выглядит особенно 
элегантно, поскольку он без особой необходимости копи- 
рует сортируемые элементы (в очереди по приоритетам). 
Действительно, выполнение N последовательных вставок 
— не самый эффективный способ построения сортирую- 
щего дерева, состоящего из N элементов. В следующем 
разделе при обсуждении реализации классического алго- 
ритма пирамидальной сортировки этим двум вопросам 
уделяется особое внимание. 


РИСУНОК 9.7. СОРТИРОВКА 
В СОРТИРУЮЩЕМ ДЕРЕВЕ 

После замены наибольшего 
элемента сортирующего 
дерева самым правым 
элементом нижнего уровня 
можно восстановить 
пирамидальный порядок за 
счет перемещения по пути 
из корня на нижний уровень 
дерева. 
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Упражнения 

> 9.21. Построить сортирующее дерево, которое полу- 
чается после того как ключи ЕА8У(ЗІІЕ8ТІО 
N вставлены в первоначально пустое сортирующее 
дерево. 

> 9.22. Воспользовавшись соглашением, принятым в 
упражнении 9.1, представьте последовательность сор- 
тирующих деревьев, полученных в результате выпол- 
нения операций 

РМО*К**І*Т*У***ОІІЕ***ІІ*Е 

на первоначально пустом сортирующем дереве. 

9.23. Поскольку примитив ехсН используется в опера- 
циях по установке пирамидального порядка, элемен- 
ты загружаются и запоминаются в два раза чаще, чем 
это необходимо. Предложите более эффективные ре- 
ализации, которые не сталкиваются с такой пробле- 
мой, в духе сортировки вставками. 

9.24. Почему мы не пользуемся сигнальной меткой, 
чтобы избежать проверку в функции ДхОо^п? 

о 9.25. Добавить операцию заменить наибольший (геріасе 
4Не тахітит) в реализацию очереди по приоритетам с 
пирамидальным порядком в программе 9.5. Рассмот- 
реть случай, когда добавляемое значение больше всех 
остальных значений в очереди. Совет : К элегантному 
решению приводит использование элемента ря[0]. 

9.26. Каким является минимальное количество пере- 
мещений ключей, которое потребуется выполнить на 
сортирующем дереве в операции удалить наибольший 
(гетоѵе тахітит)? Приведите пример сортирующего 
дерева, содержащего 15 элементов, для которого до- 
стигается этот минимум. 

9.27. Каким является минимальное количество клю- 
чей, которое потребуется переместить в процессе вы- 
полнения на сортирующем дереве трех последователь- 
ных операций удалить наибольший ? Приведите пример 
сортирующего дерева из 15 элементов, для которого 
достигается этот минимум. 






РИСУНОК 9.8. СОРТИРОВКА 
ИЗ СОРТИРУЮЩЕГО ДЕРЕВА 

Представленная здесь 
последовательность диаграмм 
отображает удаление 
остальных ключей из 
сортирующего дерева на рис. 

9. 7. Даже если каждый 
элемент возвращается на 
нижний уровень, то общие 
затраты на выполнение этой 
фазы сортировки не больше 
1§А + ...+ 1§2 + 1§1, что 
меньше 
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9.4. Пирамидальная сортировка 

Основную идею, положенную в основу программы 9.6, 
можно приспособить с таким расчетом, чтобы сортировка 
массива выполнялась без необходимости использования 
какого бы то ни было дополнительного пространства па- 
мяти. Другими словами, сосредоточившись на задаче сор- 
тировки, мы отказываемся от идеи сокрытия очереди по 
приоритетам, и вместо того чтобы придерживаться огра- 
ничений, налагаемых интерфейсом АТД очереди по приори- 
тетам , будем непосредственно применять функции Пхіір 
и йхБоіѵп. 

Используя программу 9.5 в программе 9.6 непосред- 
ственно для перемещения по массиву слева направо, при- 
меним функцию йхіір с тем, чтобы элементы, располага- 
ющиеся слева от указателя просмотра, образовывали 
пирамидально упорядоченное полное дерево. Затем, во 
время выполнения процесса нисходящей сортировки мы 
помещаем наибольший элемент на то место, которое осво- 
бождается по мере уменьшения размеров сортирующего 
дерева. Иначе говоря, процесс нисходящей сортировки 
подобен сортировке выбором, однако при этом он пользу- 
ется более эффективным методом обнаружения наиболь- 
шего элемента в неотсортированной части массива. 

Более эффективным, нежели построение сортирующе- 
го дерева за счет последовательного выполнения вставок, 
как показано на рис. 9.5 и 9.6, является построение тако- 
го дерева методом прохождения по этому дереву в обрат- 
ном направлении, формируя поддеревья меньших разме- 
ров снизу верх, что иллюстрирует рис. 9.9. Другими 
словами, мы рассматриваем каждую позицию массива как 
корень небольшого поддерева и извлекаем пользу из того 
обстоятельства, что функция ПхБо\ѵп работает на таких 
сортирующих поддеревьях столь же хорошо, как и на боль- 
шом дереве. Если оба потомка узла суть сортирующие де- 
ревья, то вызов для этого узла функции ПхБоіѵп приводит 
к тому, что поддерево с корнем в этом узле также стано- 
вится сортирующим деревом. Продвигаясь по дереву в об- 
ратном направлении и вызывая ПхБо^ѵп в каждом узле, мы 
по индукции можем восстановить пирамидальный поря- 
док. Просмотр начинается на полпути в обратном направ- 
лении вдоль массива, поскольку можно пропустить подде- 
ревья размером 1. 

Полная реализация классического алгоритма пирами- 
дальной сортировки (ЬеарзоП) представлена в программе 









РИСУНОК 9.9. ПОСТРОЕНИЕ 


СОРТИРУЮЩЕГО 
СНИЗУ ВВЕРХ 




ЕРЕВА 


Продвигаясь справа налево 
и снизу вверх мы строим 
сортирующее дерево , следя 
за тем , чтобы поддерево 
под текущим узлом было 
пирамидально упорядочено . 
Общие затраты в 
наихудшем случае линейно 
зависимы , поскольку 
большая часть узлов 
расположена близко к 
нижнему уровню дерева. 




Часть 3. Сортировка 


9.7. И хотя циклы в этой программе на первый 
взгляд решают совершенно разные задачи (первый 
выполняет построение сортирующего дерева, вто- 
рой разрушает это сортирующее дерево для процес- 
са нисходящей сортировки), они построены на ос- 
новании одной и той же базовой процедуры, 
которая восстанавливает порядок в дереве, на кото- 
ром, возможно, уже установлен пирамидальный 
порядок, за исключением разве что самого корня, 
используя при этом представление полного дерева 
в виде массива. На рис. 9.10 показано содержимое 
массива в примере, соответствующем рис. 9.7— 9.9. 

Лемма 9.4. Для построения сортирующего дерева 

снизу вверх требуется линейно зависимое время. 


А 8 О В Т I ЫСЕХАМРІ.Е 

А 3 О Р Т I ЫСЕХАМРІ.Е 

АЗОРТРИбЕХАМІ I Е 
АЗОРХРЫСЕТАМІ 1.Е 
АЗОРХРЫОЕТАМІ 1.Е 
АЗРРХОЫСЕТАМ I I Е 
АХРРТ О N 6 Е 5 А М I |_ Е 
ХТРРЗОЫСЕААМІ 1.Е 

ТЗРВЕОМѲЕААМІ 1.Х 
ЗВРЕЕОЫСЕААМ I ТХ 
ВЕР I Е О N О Е А А М 3 Т X 

РІО I Е М N С Е А А В 3 Т X 

0 I N I ЕМА6Е АР В 3 Т X 

ИІИ I ЕААО Е О Р В 8 Т X 

М І_ Е I Е А А О N О Р В 3 Т X 

1_ I Е С Е А А М N О Р В 8 Т X 

1 С Е А Е А ЕМ ВОР В 3 ТХ 

С Е Е А А ! іЩ;: ' М :■ ШІР : ■■ Р 5 : ч8 ; ■ Т : ■ X 

е а е ..а Ж ■ х'- 

Е А А Е О 1 Е М N О Р В 3 Т X 

А А Е Е О і ЕМ N О Р В 3 Т X 

А Е Е О 1 ; Е М N О Р В 8 Т X І 


В основе этого утверждения лежит тот факт, что 
большинство подвергаемых обработке деревьев 
имеют небольшие размеры. Например, чтобы 
построить сортирующее дерево из 127 элемен- 
тов, мы выполняем построение 32 сортирующих 
деревьев размером 3, 16 деревьев размером 7, 8 
деревьев размером 15, 4 деревьев размером 31, 
двух сортирующих деревьев размером 63 и од- 
ного дерева размером 127, так что в худшем слу- 
чае требуется 32- 1 + 16-2 + 8- 3 + 4- 4 + 2- 5 + 

1 • 6 = 120 продвижений (в два раза больше чис- 
ла операций сравнения). Для N = Т — 1 верхняя 
граница числа продвижений равна 

^к2 п ~ к ~' =2"-п-1<УѴ. 

\<ік<п 

Это же доказательство справедливо и в случае, 
когда 7Ѵ + 1 не является степенью 2. 


РИСУНОК 9.10. ПРИМЕР 
ПИРАМИДАЛЬНОЙ СОРТИРОВКИ 

Пирамидальная сортировка 
представляет собой эффективный 
алгоритм сортировки , основанный 
на методе выбора. Сначала 
строится сортирующее дерево 
сверху вниз без использования 
вспомогательной памяти. Верхние 
восемь строк диаграммы 
соответствуют рис. 9.9. Далее , из 
дерева многократно удаляется 
наибольший элемент. 
Незаштрихованная частъ строк 
нижней диаграммы соответствуют 
рис. 9.7 и 9. 8; заштрихованная 
часть содержит отсортированный 
по возрастанию файл. 


Эта лемма не имеет особого значения для пирамидальной сортировки, посколь- 
ку основная доля времени ее выполнения все еще приходится на АЧо^УѴ — время, 
затрачиваемое на выполнение нисходящей сортировки, однако оно играет важную 
роль в тех приложениях очередей по приоритетам, в которых операция создать 
( сопзГгис Г) приводит к алгоритму, обеспечивающему линейную зависимость времени 
выполнения. Как отмечается на рис. 9.6, построение сортирующего дерева с N пос- 
ледовательно выполняемых операций вставить требует в совокупности ЛЧо§7Ѵ шагов 
в наихудшем случае (даже если это общее количество шагов оказывается в среднем 
линейным для файлов с произвольной организацией). 
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Программа 9.7. Пирамидальная сортировка 

Непосредственное применение функции ііхОожп позволяет построить классический 
алгоритм пирамидальной сортировки. Цикл іоѵ выполняет построение сортирующего 
дерева; далее, цикл юНіІе меняет местами наибольший элемент с последним 
элементом массива и восстанавливает свойства сортирующего дерева, продолжая этот 
процесс до тех пор, пока сортирующее дерево не станет пустым. Тот факт, что в 
условиях представления полного дерева в виде массива указатель ря указывает на 
а[М], позволяет программе рассматривать переданный ей подфайл как первый 
элемент с индексом 1 (см. рис. 9.2). В некоторых средах программирования это 
невозможно. 


‘Ьетріаѣе Ссіазз Іѣет> 

ѵоісі Ьѳарзог-Ь (І-Ьѳт а[ ], іпЪ 1, іпі: г) 
{ іпѣ к, N - г-1+1; 

І-Ьат *рд = а+1-1; 

Гог (к = N/2; к >= 1 ; к--) 

^іхБоѵш (рч, к, Ы) ; 
ѵЬіІе (N>1) 

{ехсЬ (ря[1] , рд[И] ) ; 

^іхЦоѵп (рд, 1, — Ы) ; } 


} 


Лемма 9.5. Пирамидальная сортировка использует менее 2тѴ 1§ѵѴ сравнений для сорти- 
ровки N элементов. 

Несколько более высокая граница ЗУѴ1&/Ѵ следует непосредственно из леммы 9.2. 

Предложенная здесь граница следует из более точного подсчета на основе леммы 

9.4. 

Лемма 9.5 и возможность выполнения без использования вспомогательной памя- 
ти — вот два основных фактора, которые обусловливают интерес, проявляемый к 
пирамидальной сортировке на практике, ибо они гарантируют , что сортировка N эле- 
ментов будет выполняться за время, пропорциональное N 1о§іУ независимо от при- 
роды входного потока данных. В подобных условиях не бывает входных данных, вы- 
зывающих возникновение наихудшего случая, который существенно замедляет 
выполнение сортировки (в отличие от быстрой сортировки), а пирамидальная сорти- 
ровка вообще не использует дополнительное пространство памяти (в отличие от сор- 
тировки слиянием). Достижение такой гарантированной эффективности для худше- 
го случая требует уплаты своей цены: например, внутренний цикл рассматриваемого 
алгоритма (стоимость выражается количеством операций сравнения) выполняет боль- 
ше базовых операций, чем внутренний цикл быстрой сортировки, таким образом, 
пирамидальная сортировка, по-видимому, работает медленнее быстрой сортировки 
как на обычных файлах, так и на файлах с произвольной организацией. 

Сортирующие деревья можно успешно использовать для решения проблемы вы- 
борки к максимальных элементов из N элементов (см. главу 7), особенно в случаях, 
когда к мало. Мы просто прекращаем выполнение алгоритма пирамидальной сорти- 
ровки после того, как к элементов будут отобраны из вершины сортирующего дере- 
ва. 
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Лемма 9.6. Выборка на базе пирамидальной сортировки позволяет отыскать к-й наи- 
больший элемент из N элементов за время, пропорциональное И, когда к мало или близ- 
ко по величине к Ы, либо за время, пропорциональное N 1о§Л^ во всех других случаях. 

Один метод заключается в том, чтобы построить сортирующее дерево с использо- 
ванием числа операций сравнения меньшего (см. лемму 9.4), р последующим 
удалением к наибольших элементов, используя для этой цели 2 к или меньшее 
количество операций сравнения (см. лемму 9.4), при общем числе сравнений, рав- 
ном 2 N + 2 к 1§Ж Другой метод связан с построением минимально ориентирован- 
ного сортирующего дерева размером к с последующим выполнением операции 
заменить наименьший (геріасе іке тіпітит) (операция вставить плюс операция уда- 
лить наименьший) на оставшихся элементах, при общем количестве операций срав- 
нения, не превосходящем 2к + 2(N - к)\%к (см. упражнение 9.36). Этот метод ис- 
пользует дополнительную память, пропорциональную к , и является особо 
привлекательным для нахождения к наибольших из N элементов в условиях, ког- 
да к принимает малое, а N — большое значение (или ничего не известно заранее). 
Что касается случайных ключей или других типичных ситуаций верхняя граница 1 %к 
для операций на сортирующем дереве во втором методе, по-видимому, есть 0(1), 
когда к мало по сравнению с N (см. упражнение 9.36). 

Исследованы другие способы дальнейшего улучшения пирамидальной сортиров- 
ки. Одна из идей, развитая Флойдом, состоит в использовании того обстоятельства, 
что элемент, повторно вставляемый в процессе нисходящей сортировки, проделывает 
весь путь на нижний уровень, так что мы можем сэкономить время, затрачиваемое 
на проверку достижения таким элементом своей позиции, просто продвигая больший 
из двух потомков до тех пор, пока не будет достигнут нижний уровень с последую- 
щим продвижением вверх по сортирующему дереву в соответствующую позицию. Бла- 
годаря этой идее коэффициент сокращения числа выполняемых операций сравнения 
асимптотически стремится к 2 и принимает значение, близкое к 1&/Ѵ! ~ N1^- N / 1п2, 
что является абсолютным минимумом количества сравнений для любого алгоритма 
сортировки (см. часть 8). Этот метод требует дополнительных вычислений и может 
оказаться полезным на практике только в ситуациях, когда расходы на операции 
сравнения сравнительно велики (например, при сортировке записей со строковыми 
с ключами или другими видами длинных ключей). 

Другая идея заключается в том, чтобы построить сортирующие деревья, опираясь 
на представление полных пирамидально упорядоченных троичных деревьев в виде 
массивов, при этом узел в позиции к больше или равен узлам в позициях ЗА: — 1 , ЗА и 
ЗА + 1 и меньше или равен узлам в позициях 1_(А + 1)/ З] для всех позиций между 1 и 
N в массиве из N элементов. Снижение стоимости, обусловленное меньшей высотой 
дерева, уравновешивается более высокой стоимостью выбора наибольшего из трех 
потомков в каждом узле. Подобного рода компромисс зависит от деталей реализации 
(см. упражнение 9.30). Дальнейшее увеличение количества потомков в каждом узле 
по всем признакам не дает никакой выгоды. 

Рисунок 9.11 иллюстрирует пирамидальную сортировку в действии на файле с про- 
извольной организацией. Поначалу кажется, что этот процесс делает все, что угодно, 
только не сортировку, поскольку по мере продвижения построения сортирующего 
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дерева большие элементы перемещаются в начало файла. 
Однако, в соответствии с ожиданиями, далее метод больше 
выглядит как зеркальное отображение сортировки выбором. 
На рис. 9.12 показано, что различные виды данных можно 
представить в виде сортирующих деревьев, обладающими 
особыми характеристиками, однако по мере продвижения 
процесса сортировки к своему завершению все они приоб- 
ретают вид сортирующего дерева с произвольной организа- 
цией. 

Естественно, не может не интересовать проблема, какой 
метод сортировки выбрать для конкретного приложения: 
пирамидальную сортировку, быструю сортировку или сорти- 
ровку слиянием. Выбор между пирамидальной сортировкой 
и сортировкой слиянием сводится к выбору между неустой- 
чивой сортировкой (см. упражнение 9.28) и сортировкой, 
которая использует дополнительный объем памяти; выбор 
между пирамидальной сортировкой и быстрой сортировкой 
сводится к выбору между средним быстродействием сорти- 
ровки и быстродействием, обеспечиваемым в наихудшем 
случае. В свое время мы достаточно хорошо потрудились 
над совершенствованием внутренних циклов быстрой сор- 
тировки и сортировки слиянием; решение этих вопросов 
применительно к сортирующим деревьям мы предоставляем 
в упражнениях, сопровождающих настоящую главу. Речь от- 
нюдь не идет о повышении производительности пирами- 
дальной сортировки до уровня, превосходящего быструю 
сортировку, что, собственно говоря, показано посредством 
эмпирических данных, приведенных в табл. 9.2. Тем не ме- 
нее, специалисты, изучающие проблему быстрой сортиров- 
ки на собственных машинах, найдут эти данные поучитель- 
ными. Как обычно, различные характерные особенности 
конкретных машин и систем программирования могут сыг- 
рать важную роль. Например, быстрая сортировка и сорти- 
ровка слиянием обладают свойством локальности, которое 
дает им определенные преимущества на некоторых типах 
вычислительных машин. Когда операции сравнения стано- 
вятся недопустимо дорогостоящими, версия Флойда подхо- 
дит лучше других, поскольку в такого рода ситуациях она 
становится чуть ли не оптимальной, если принимать во вни- 
мание только время выполнения и стоимость используемого 
пространства памяти. 



РИСУНОК 9.11. 

ДИНАМИЧЕСКИЕ 

ХАРАКТЕРИСТИКИ 

ПИРАМИДАЛЬНОЙ 

СОРТИРОВКИ 

На первый взгляд 
кажется , что процесс 
построения (слева) 
нарушает ранее 
установленный порядок 
на файле за счет того, 
что элементы с 
большими значениями 
помещаются в начало 
файла. Затем процесс 
нисходящей сортировки 
(справа) начинает 
действовать как 
сортировка выбором, 
при этом сортируемое 
дерево находится в 
начальной части файла, 
а построение 
отсорт ирова иного 
массива выполняется в 
конце файла. 
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РИСУНОК 9.12. ДИНАМИЧЕСКИЕ ХАРАКТЕРИСТИКИ ПИРАМИДАЛЬНОЙ СОРТИРОВКИ РАЗЛИЧНЫХ 
ТИПОВ ФАЙЛОВ. 

Время выполнения пирамидальной сортировки не слишком чувствительно к природе входных данных. 
Независимо от того , какие значения принимают входные величины , наибольший элемент 
обнаруживается за число шагов, меньшее 1&/Ѵ. На диаграммах показаны: файлы с произвольной 
организацией, файлы с распределением Гаусса, почти упорядоченные файлы, почти обратно 
упорядоченные файлы и файлы с произвольной организацией, обладающие 10 различными ключами 
(вверху, слева направо). Вторая диаграмма сверху демонстрирует сортирующее дерево, построенное с 
помощью восходящего алгоритма, остальные диаграммы отображают для каждого файла процесс 
нисходящей сортировки. Вначале сортирующие деревья отображают в какой-то степени исходный 
файл, но по мере продвижения процесса сортировки они все больше напоминают сортирующие 
деревья, полученные для файла с произвольной организацией. 
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Таблица 9.2. Эмпирические исследования алгоритмов пирамидальной сортировки 

Значения относительного времени выполнения различных видов сортировки на файлах 
случайных целых чисел подтверждают наши предположения, основанные на оценке 
длины внутренних циклов, что пирамидальная сортировка обладает меньшим 
быстродействием, чем быстрая сортировка, но сопоставима по этому параметру с 
сортировкой слиянием. Временные показатели для первых N страниц книги МоЬу Оіск 
("Моби Дик") в правой части таблицы показывают, что метод Флойда является 
эффективным усовершенствованием пирамидальной сортировки в тех случаях, когда 
стоимость операций сравнения достаточно высока. 



32-битовые целые ключи 


строковые ключи 

N 

О 

М 

РО 

Н 

Р 

О 

Н 

Р 

12500 

2 

5 

4 

3 

4 

8 

11 

8 

25000 

7 

11 

9 

8 

8 

16 

25 

20 

50000 

13 

24 

22 

18 

19 

36 

60 

49 

1 00000 

27 

52 

47 

42 

46 

88 

143 

116 

200000 

58 

111 

106 

100 

107 




400000 

122 

238 

245 

232 

246 




800000 

261 

520 

643 

542 

566 




Обозначения: 









О Быстрая сортировка, стандартная реализация (программа 7 1) 

М Сортировка слиянием, стандартная реализация (программа 8 1) 

РО Очередь по приоритетам на базе пирамидальной сортировки (программа 9.5) 
Н Пирамидальная сортировка, стандартная реализация (программа 9.6) 

Р Пирамидальная сортировка с усовершенствованием Флойда 


Упражнения 

9.28. Показать, что пирамидальная сортировка не является устойчивой. 

• 9.29. Определить эмпирическим путем процентное отношение времени, затрачи- 
ваемого на фазу построения для N = ІО 3 , ІО 4 , ІО 5 и ІО 6 . 

• 9.30. Реализовать версию пирамидальной сортировки, основанную на полных пи- 
рамидально упорядоченных сортирующих деревьях, соответствующих описанным 
в тексте. Сравнить количество использованных созданной программой операций 
сравнения, полученное эмпирическим путем, с аналогичным показателем стандар- 
тной реализации для N = ІО 3 , ІО 4 , ІО 5 и ІО 6 . 

• 9.31. Продолжая упражнение 9.30, определить эмпирическим путем, будет ли ме- 
тод Флойда эффективным применительно к троичным деревьям. 

о 9.32. Имея в виду только стоимость операций сравнения и предполагая, что для на- 
хождения наибольшего из і элементов требуется / операций сравнения, найти зна- 
чение /, которое сводит к минимуму коэффициент ЛПо§7Ѵ, присутствующий при 
подсчете операций сравнения, в том случае, когда в пирамидальной сортировке ис- 
пользуется /-арное сортирующее дерево. Сначала воспользуемся прямым обобще- 
нием программы 9.7, затем предположим, что метод Флойда позволяет сэкономить 
одно сравнение во внутреннем цикле. 
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о 9 . 33 . Для N = 32 найти такое расположение ключей, которое требует выполнения 
максимального числа операций сравнения в рамках пирамидальной сортировки. 

•• 9 . 34 . Для N = 32 найти такое расположение ключей, которое требует выполнения 
минимального числа операций сравнения в рамках пирамидальной сортировки. 

9 . 35 . Показать, что построение очереди по приоритетам размером к с последую- 
щим выполнением N — к операций заменить наименьший (геріасе іке тіпітит) (опе- 
рация вставить плюс операция удалить наименьший ), оставляет в сортирующем де- 
реве к наибольших элементов из числа N элементов. 

9 . 36 . Реализовать обе версии выборки на базе пирамидальной сортировки, о ко- 
торых шла речь при обсуждении леммы 9.6, воспользовавшись методами, описан- 
ными в упражнении 9.25. Сравните определяемое эмпирическим путем количество 
операций сравнения, которые они используют, с аналогичным показателем мето- 
да, задействующего быструю сортировку, описанного в разделе главы 7, для 
N = ІО 6 и при к — 10, 100, 1000, 10 4 , ІО 5 и ІО 6 . 

• 9.37. Реализовать версию пирамидальной сортировки, в основу которой положе- 
на идея представления пирамидально упорядоченного дерева в прямом порядке 
(ргеогбег), а не по уровням. Проведите эмпирическое сравнение количества опе- 
раций сравнения, используемых этой версией, с количеством сравнений в стандар- 
тной реализации для ключей с произвольной организацией, причем N - ІО 3 , 10 4 , 
ІО 5 и ІО 6 . 

9.5. Абстрактный тип данных очереди 

по приоритетам 

В большинстве случаев требуется написать приложение так, чтобы оно содержа- 
ло процедуру реализации очереди по приоритетам вместо того, чтобы возвращать 
значения из операции удалить наибольший (гетоѵе іке тахітит ), уведомлять, ШКйя из 
записей обладает наибольшим приоритетом, и подобным же образом поступать по 
отношению к другим операциям. Другими словами, устанавливаются приоритеты, а 
очереди по приоритетам применяются только с целью доступа к другой информации 
в соответствующем порядке. Подобного рода организация аналогична использованию 
понятий непрямой сортировки (іпйігесі-зоП) и сортировки по указателю (роіпіег-зогі % опи- 
санных в главе 6. В частности, такой подход нужен для придания смысла таким опе- 
рациям, как изменить приоритет (скаще ргіогііу) или удалить (гетоѵе). Здесь мы под- 
робно исследуем реализацию упомянутой идеи не только в силу того, что в 
дальнейшем будем использовать Очередь по приоритетам, но еще и потому, что та- 
кая ситуация характерна для проблем, с которыми приходится сталкиваться при раз- 
работке интерфейсов и реализаций для абстрактных типов данных (АТД). 

Когда мы хотим удалить элемент из очереди по приоритетам, как правильно ука- 
зать, какой конкретно элемент надо удалить? Когда мы хотим поддерживать сразу 
несколько очередей по приоритетам, как следует организовать реализации, чтобы 
иметь возможность манипулировать очередями по приоритетам так же, как мы ма- 
нипулируем другими типами данных? Подобного типа вопросы служили предметом 
обсуждения в главе 4. Программа 9.8 представляет обобщенный интерфейс для оче- 
редей по приоритетам равно как и для строк, которые обсуждались в разделе 4.8. Она 
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находит применение в ситуации, когда клиентская программа работает с ключами и 
ассоциированной с ними информацией и, будучи главным образом заинтересован- 
ной в операции доступа к информации, ассоциированной с ключом с наибольшим 
значением, она, тем не менее, может выполнять и другие многочисленные операции 
по обработке данных в объектах, о чем шла речь в начале главы. Все эти операции 
обращаются к конкретной очереди по приоритетам через дескрипторы (указатель на 
структуру, которая не имеет конкретного описания). Операция вставитъ возвраща- 
ет дескриптор каждого объекта, добавляемого в очередь по приоритетам в клиентс- 
кой программе. Дескрипторы объектов отличаются от дескрипторов очередей по при- 
оритетам. При такой организации клиентские программы берут на себя обязанность 
отслеживать дескрипторы, которые впоследствии они могут использовать для опре- 
деления, какие объекты подвергались воздействию со стороны операций удалитъ и 
изменить приоритет , и над какими очередями по приоритетам должны быть выпол- 
нены все указанные операции. 

Данная организация налагает ограничения как на клиентскую программу, так и 
на реализацию. Клиентская программа не может получить доступ к информации ни- 
каким другим способом, кроме как за счет использования этого интерфейса. На нее 
возлагается ответственность за правильное использование дескрипторов: например, 
в реализации не существует сколь-нибудь подходящего способа проверки с целью 
выявления недопустимости такого действия, как использование клиентской програм- 
мой дескриптора удаленного элемента. С другой стороны, реализация не может сво- 
бодно перемещаться по информации, поскольку у клиентских программ имеются дес- 
крипторы, которые они могут использовать на более поздних стадиях. Этот момент 
станет более понятным, когда мы приступим к исследованию деталей реализации. Как 
обычно, какой бы уровень детализации ни был бы выбран в наших реализациях, аб- 
страктный интерфейс, такой как программа 9.8, представляет собой полезную отправ- 
ную точку для нахождения компромисса между потребностями приложений и потреб- 
ностями реализаций. 

Прямолинейные реализации базовых операций над очередями по приоритетам, 
которые даны в программе 9.9, используют неупорядоченные представления данных 
в виде двухсвязных списков. Этот программный код иллюстрирует природу интерфей- 
са; очень несложно построить другие, столь же бесхитростные реализации, используя 
другие элементарные представления. 

Программа 9.8. Полный АТД очереди по приоритетам 

Данный интерфейс для АТД очереди по приоритетам дает клиентским программам 
возможность удалять элементы и менять приоритеты (с использованием дескрипторов, 
предлагаемых программной реализацией), а также выполнять слияние очередей. 

ѣетріаѣе <с1азз Іѣет> 
сіазз РО 
{ 


//Программный код, зависящий от реализации 
риЫіс: 

//Определение дескриптора в зависимости от реализации 
Р0(іп1:) ; 

іпѣ етрѣуО сопз'Ь; 
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Ьапсііе іпзегЪ (Пет) ; 

Нет дейтах () ; 
ѵоісі сЬапде (Ьапсііѳ, Нет); 
ѵоісі гетоѵе (ЬапсИе) ; 
ѵоісі }оіп (РО<Пет>&) ; 


В соответствие с обсуждениями в разделе 9.1, реализация, представленная в про- 
граммах 9.9 и 9.10, подходит для тех приложений, в которых очередь по приоритетам 
небольшая и операции удалить наибольший или найти наибольший выполняются неча- 
сто; в остальных случаях более предпочтительными оказываются реализации на базе 
пирамидальной сортировки. Реализация функции ПхТір и ПхБстп на пирамидально 
упорядоченных деревьях с явными связями с одновременной поддержкой целостно- 
сти дескрипторов — достаточно сложная задача, которую мы оставляем читателю в 
качестве упражнения, а сами займемся подробным рассмотрением двух альтернатив- 
ных подходов в разделах 9.6 и 9.7. 

Полный АТД, такой как в программе 9.8, обладает массой достоинств, однако 
иногда полезно рассматривать другие подходы, налагающие другие ограничения на 
клиентские программы и реализации. В разделе 9.6 рассматривается пример, в усло- 
виях которого в обязанности клиентской программы входит ведение записей и клю- 
чей, а программы, работающие с очередями по приоритетам, обращаются к ним не- 
явно. 

Иногда приемлемыми и даже желательными могут оказаться небольшие измене- 
ния интерфейсов. Например, может потребоваться функция, возвращающая значение 
ключа с наибольшим приоритетом в очереди, а не способ обращения к этому ключу 
и связанной с ним информацией. Кроме того, на передний план выходят проблемы, 
которые исследовались в разделе 4.8 и которые связаны с управлением памятью и 
семантикой копирования. Мы не рассматриваем операции уничтожить (йе$ігоу) или 
копировать (сору), а выбрали один из нескольких возможных вариантов операции объе- 
динить (]оіп). 

Программа 9.9. Неупорядоченная очередь по приоритетам 
в виде двухсвязного списка. 

Эта реализация содержит операции создать (сопзігисі), проверить на наличие 
элементов (іезі іі етріу) и вставить (іпзегі), взятые из интерфейса программы 9.8 (см. 
программу 9.10, в которой содержатся реализации четырех других функций). Она 
поддерживает простой неупорядоченный список, в котором имеются головной и 
хвостовой узлы. Структура посіе (узел) описывается как узел двухсвязного списка 
(элемент и две связи). Представление приватных данных состоит из головы списка и 
хвостовых связей. 

Тетріаѣе <с1азз Пет> 
сіазз РО 
{ 


зѣгис'Ь посіе 

{ Нет Нет; посіе *ргеѵ, *пех*Ь; 
посіе (Нет ѵ) 

{ Нет = ѵ; ргеѵ = 0; пех*Ь = 0; } 

>; 
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■Ьурѳсіе^ посіе* Ііпк; 

Ііпк Ьеасі, іаіі; 
риЫіс: 

іурвсів^ посіе* Ьапсііе ; 

РО(іпі: = 0) 

{ 

Ьеасі = пе\с посіе (0) ; ѣаіі = пеѵг посіе (0) ; 
Ьеасі->ргеѵ = Ъаіі; Ьеасі- >пехѣ ~ Ьаіі; 
*Ьаі1->ргеѵ в Ьеасі; Ьаі1->пехі; = Ьеасі; 

} 

іп“Ь етрѣу( > сопзѣ 

{ ге'Ьигп Ьвасі^пехѣ^пехѣ == Ьеасі; } 

Ьапсііе іпзегѣ(Іѣет ѵ) 

{ Ьапсііе Ь = пеѵг посіе (ѵ) ; 

■Ь->пехі = Ьеасі->пехѣ; *Ь->пехі->ргеѵ = Ъ; 
*Ь->ргеѵ = Ьеасі; Ьеасі->пехЬ = Ъ; 
геѣигп Ь ; 

) 

Іѣет деѣліах ( ); 
ѵоісі сЬапдѳ (Ьапсііе , ІЬет) ; 
ѵоісі гетоѵе (Ьапсііѳ) ; 
ѵоісі зоіп (Р0<ІЬет>&) ; 


Добавление таких процедур в интерфейс, представленный в программе 9.8, не свя- 
зан с какими-либо трудностями; гораздо труднее разработать такую реализацию, в 
рамках которой гарантируется логарифмическая производительность для всех видов 
операций. В тех приложениях, в которых очереди по приоритетам не достигают боль- 
ших размеров или в которых смесь операций вставить и удалить наибольший обладает 
рядом специальных свойств, предпочтительным может оказаться полностью гибкий 
интерфейс. С другой стороны, в тех приложениях, в которых очереди возрастают до 
внушительных размеров и наблюдается или подтверждается соответствующими рас- 
четами десятикратное, а то и стократное возрастание производительности, можно ог- 
раничиться именно теми операциями, которые обеспечивают упомянутый рост про- 
изводительности. Были проведены обширные исследования, результаты которых были 
положены в основу алгоритмов, манипулирующих очередями по приоритетам при 
помощи различных сочетаний операций. Биномиальная очередь, описанная в разделе 
9.7, представляет собой важный пример такого рода. 

Программа 9.10. Очередь по приоритетам в виде двухсвязного списка (продолжение) 

Подставляя эти реализации вместо соответствующих объявлений в программе 9.9, мы 
получаем полную реализацию очереди по приоритетам. Операция удалить наибольший 
требует просмотра всего списка, тем не менее, затраты на поддержку двухсвязного 
списка оправдываются тем фактом, что операции изменить приоритет, удалить и 
объединить реализованы таким образом, что выполняются за постоянное время, при 
этом к спискам применяются только элементарные операции (обращайтесь к главе 3 
за более подробным описанием связных списков). 

При необходимости можно добавить в программы деструктор, конструктор копирования 
и перегруженный оператор присваивания для дальнейшего совершенствования этого 
приложения с целью получения АТД первого класса (см. раздел 4.8). Обратите 
внимание на то обстоятельство, что реализация функции ]оіп (объединить) присваивает 
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список узлов из параметров, которые должны быть включены в результат, но при этом 
она не делает их копий. 

Нет де'Ьтах ( ) 

{ Нет тах; Ііпк х = Ьеасі->пех1:; 

^ог (Ііпк Ь = х; ѣ->пехе. !=Ьеасі; 1: = Ъ->пех1:) 

(х->іѣет < ѣ->Пѳт) х =Ъ; 
тах = х->Пет; 
гетоѵе(х) ; 
геЪигп тах; 

} 

ѵоісі сЬапде (Ьапсііе х , Нет ѵ) 

{ х->кеу = ѵ; } 
ѵоісі гетоѵе (Ьапсііе х) 

{ 

х->пехЬ->ргеѵ-> = х->ргеѵ; 
х->ргеѵ->пех1:--> = х->пех1:; 
сіеіеѣе х; 

} 

ѵоісі ;)оіп (РО<ІЬет>& р) 

{ 

■Ьаі1-> ргеѵ ->пех-Ь = р.Ьеасі->пех1:; 
р.Ьеасі->пех1:->ргеѵ = Ъаі1-> ргеѵ; 

Ьеасі->ргеѵ = р . Ъаіі ; 
р . -ЬаіІ-^пех-Ь = Ьеасі; 
сіеІеЬе Ьаіі; сіеіеѣе р. Ьеасі; 

■Ьаіі = р.ЪаіІ 

} 


Упражнения 

9.38. Какой реализацией очереди по приоритетам вы воспользуетесь для того, что- 
бы найти 100 наименьших чисел в наборе из ІО 6 случайных чисел? Докажите пра- 
вильность полученного ответа. 

9.39. Построить реализации, подобные программам 9.9 и 9.10, которые используют 
упорядоченные двухсвязные списки. Совет : Поскольку клиентская программа име- 
ет дескрипторы конкретных элементов структуры данных, ваши программы мо- 
гут изменять в узлах только связи (но не ключи). 

9.40. Построить реализации операций вставить и удалить наибольший (интерфейс 
очереди по приоритетам в программе 9.1), воспользовавшись пирамидально упо- 
рядоченными полными деревьями с явными узлами и связями. Совет : Поскольку 
в клиентской программе нет дескрипторов конкретных элементов структуры дан- 
ных, можно воспользоваться преимуществом того факта, что проще осуществить 
обмен информационными полями в узлах, нежели обмен самими узлами. 

• 9.41. Построить реализации операций вставить , удалить наибольший , изменить при- 
оритет и удалить (интерфейс очереди по приоритетам в программе 9.8), восполь- 
зовавшись пирамидально упорядоченными деревьями с явными связями. Совет : 
Поскольку в клиентской программе имеются дескрипторы конкретных элементов 
структуры данных, это упражнение сложнее упражнения 9.40 не только потому, 
что узлы должны быть трехсвязными, но также и потому, что ваши программы 
могут изменять только связи (но не ключи) в узлах. 
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9 . 42 . Добавить реализацию (решение "в лоб”) операции объединить в реализацию 
из упражнения 9.41. 


о 9 . 43 . Добавить объявления деструктора, конструктора копирования и перегружен- 
ный оператор присваивания в программу 9.8, чтобы превратить ее в АТД перво- 
го класса, включить соответствующие реализации в программы 9.9 и 9.10 и напи- 
сать программу-драйвер, которая протестирует полученные интерфейс и 
реализацию. 



Ъ яр [к] р^[к] 


4ага[к] 


9 . 44 . Внести изменения в интерфейс и реализацию операции объединить в про- 
граммы 9.9 и 9.10, которые приведут к тому, 

что она возвращает РО (результат объедине- 
ния параметров) и имеет своим результатом 
разрушение аргументов. 

9 . 45 . Построить интерфейс очереди по при- 
оритетам и реализацию, которая поддержи- 
вает операции построить и удалить наиболь- 
ший, используя для этой цели турнир (см. 
раздел 5.7). Программа 5.19 обеспечивает 
основу для операции построить (соп$ішсІ). 

9 . 46 . Преобразовать решение упражнения 
9.45 в АТД первого класса. 

9 . 47 . Добавить операцию вставить в реше- 
ние упражнения 9.45. 


9.6. Очередь по 
приоритетам для 
индексных элементов 

Предположим, что записи, обрабатываемые 
в очередях по приоритетам, образуют массив. В 
этом случае программам, работающим с очере- 
дями по приоритетам, имеет смысл обращаться 
к элементам, используя индексы массивов. Бо- 
лее того, индексы массива могут рассматри- 
ваться в качестве дескрипторов, чтобы реализо- 
вать все операции, выполняемые над очередями 
по приоритетам. Интерфейс, соответствующий 
этому описанию, приводится в программе 9.11. 
Рисунок 9.13 демонстрирует, как такой подход 
можно применить в примере, который исполь- 
зовался для изучения индексной сортировки в 
главе 6. Обходясь без копирования и не внося 
специальных изменений в записи, можно под- 
держивать очередь по приоритетам, содержа- 
щую некоторое подмножество записей. 
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РИСУНОК 9.13. СТРУКТУРЫ ДАННЫХ 
ИНДЕКСНОГО СОРТИРУЮЩЕГО ДЕРЕВА 

Манипулируя индексами, а не самими 
записями, можно построить очередь по 
приоритетам на подмножестве записей 
в массиве. В рассматриваемом случае 
сортирующее дерево размером 5 в 
массиве рч содержит имена 5 студентов 
с наивысшими рейтингами. Таким 
образом, ЛаІ;а[до[і]].пате содержит 
8тШі, имя студента, обладающего 
наивысшим рейтингом, и т.д. 
Обращенный массив позволяет 
программам очереди по приоритетам 
трактовать индексы массива как 
дескрипторы. Например, если требуется 
поменять индекс Смита на 85, мы 
меняем содержимое <1а(;а[3].§га(іе, 
затем вызываем функцию Р(2сЬап§е(3). 
Реализация очереди по приоритетам 
осуществляет доступ к записи рц[цр[3]] 
в (или рчШ, поскольку ЧР [3]=і;«к 
новому ключу в (1аІа[рч[ 1]].пате (или 
4а(а[3].пате, поскольку . 
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Использование индексов существующего массива — вполне естественное решение, 
однако оно ведет к реализациям с ориентацией, противоположной программе 9.8. 
Теперь уже клиентская программа не может свободно перемещаться по информации, 
поскольку программа, реализующая очередь по приоритетам, работает с теми же ин- 
дексами, с которыми имеет дело и клиентская программа. В свою очередь, реализа- 
ция очереди по приоритетам должна пользоваться индексами только в тех случаях, 
когда они сначала передаются ей клиентской программой. 

При разработке реализации применяется в точности такой же подход, который 
использовался при индексной сортировке в разделе 6.8. Мы манипулируем индекса- 
ми и перегружаем операцию орега1ог< таким образом, что сравнения адресуются к 
элементам массива индексов клиентской программы. При этом возникают некото- 
рые осложнения, поскольку необходимо, чтобы программа очереди по приоритетам 
отслеживала объекты так, чтобы она могла отыскать их, когда клиентская програм- 
ма обращается к ним по дескриптору (индексу массива). С этой целью добавляется 
второй индексный массив, обеспечивающий отслеживание положения ключей в оче- 
реди по приоритетам. Чтобы локализовать поддержку этого массива, данные переме- 
щаются только через операцию ехсН, поэтому необходимо дать соответствующее оп- 
ределение ехсЬ. 

Полная реализация этого подхода с использованием сортирующих деревьев нахо- 
дится в программе 9.12. Эта программа только незначительно отличается от програм- 
мы 9.5, тем не менее, она достойна специального изучения, поскольку является ис- 
ключительно полезной в практических ситуациях. Будем называть структуру данных, 
построенную этой программой, индексным сортирующим деревом (іпдех Иеар). Эта про- 
грамма служит строительным блоком для других алгоритмов в частях 5—7. Как обыч- 
но, мы не включаем код обнаружения ошибок и предполагаем (например), что ин- 
дексы никогда не выходят за пределы отведенного им диапазона, а пользователь не 
делает попыток вставить что-либо в заполненную очередь и удалить что-либо из пу- 
стой очереди. Добавление кода подобного назначения не вызывает особых затрудне- 
ний. 


Программа 9.11. Интерфейс АТД очереди по приоритетам для индексных элементов. 


Вместо того чтобы строить различные структуры данных из самих элементов данных, 
этот интерфейс обеспечивает возможность построения очереди по приоритетам с 
использованием индексов конкретных элементов массива клиентской программы. 
Программы, реализующие операции вставить, удалить наибольший , изменить 
приоритеты и удалить, используют дескриптор, представляющий собой индекс массива, 
а клиентская программа перегружает операцию орегаІоК так, чтобы стало возможным 
сравнение двух элементов массива. Например, клиентская программа может 
определить орегаіоК таким образом, что значением неравенства і < і становится 
результат сравнения сіаіа[і] .дгасіе и гіаІаЩ.дгасІе. 


'ЬетрІа'Ье <с1азз ІЪет> 
сіазз Рф 

{ 


//Программный код, зависящий от реализации 
риЫіс : 

РО (іп*Ь) ; 

іпѣ етрѣуО сопзѣ; 
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ѵоісі іпзегЪ (Іпсіех) ; 
Іпсіѳх дѳЬпах ( ) ; 
ѵоісі сЬапдѳ (Іпсіех) ; 
ѵоісі гѳтоѵѳ (Іпсіех) ; 



Этот же подход применим и для любой 
очереди по приоритетам, для которой исполь- 
зуется представление в виде массива (напри- 
мер, см. упражнения 9.50 и 9.51). Основной 
недостаток применения подобного рода кос- 
венной адресации состоит в необходимости 
расхода дополнительного объема памяти. Раз- 
мер массива индексов должен иметь размер 
массива данных, тогда как максимальный 
размер очереди по приоритетам может быть 
намного меньше. Другой подход к построе- 
нию очереди по приоритетам над данными, 
образующими массив, заключается в том, что- 
бы клиентская программа строила записи, со- 
стоящие из ключа и индекса массива в каче- 
стве дополнительной информации, или в 
использовании индексного ключа с перегру- 
женной операцией орегаіог<, поддерживае- 
мой клиентской программой. Далее, если 
рассматриваемая реализация использует пред- 
ставление со списочным распределением па- 
мяти, такое как в программах 9.9 и 9.10 или в 
упражнении 9.41, то пространство памяти, ис- 
пользуемое очередью по приоритетам, будет 
пропорционально максимальному количеству 
элементов в очереди в каждый конкретный 
момент времени. Такого рода подходы по 
сравнению с подходом, примененным в про- 
грамме 9.12, выглядит предпочтительнее, если 
заранее нужно зарезервировать определен- 
ное пространство памяти необходимо заранее 
или если очередь по приоритетам включает в 
себя только небольшую часть массива дан- 
ных. 

Программа 9.12. Очередь по приоритетам, 
построенная на базе индексного сортирующего 
дерева 

Эта реализация программы 9.11 поддерживает ря 
как массив индексов некоторого клиентского 
массива. Например, если клиент определяет 




РИСУНОК 9.14. ИЗМЕНЕНИЕ ПРИОРИТЕТА 
ПРОИЗВОЛЬНОГО УЗЛА СОРТИРУЮЩЕГО 
ДЕРЕВА 

На верхней диаграмме показано 
сортирующее дерево, о котором известно, 
что оно пирамидально упорядоченно, за 
исключением разве что одного узла . Если 
этот узел больше своего родителя, то он 
должен продвинуться вверх, как показано 
на рис. 9.3. Эта ситуация 
демонстрируется и на средней диаграмме ; 
в рассматриваемом случае узел У 
поднимается вверх по дереву ( в общем 
случае его продвижение может 
прекратиться, так и не достигнув корня). 
Если узел меньше, чем больший из его двух 
потомков, то он должен опуститься вниз 
по дереву, как показано на рис. 9.3. Эта 
иллюстрация показана на нижней 
диаграмме , в этом случае узел В 
продвигается вниз по дереву (в общем 
случае его продвижение может 
прекратиться, так и не достигнув 
нижнего уровня). Данной процедурой 
можно воспользоваться в качестве основы 
для операции изменить приоритет в 
сортирующем дереве с целью 
восстановления структуры сортирующего 
дерева после изменения значения ключа в 
узле, либо в качестве основы для операции 
удалить в сортирующем дереве с целью 
восстановления структуры сортирующего 
дерева после замены ключа в узле на самый 
правый ключ нижнего уровня дерева. 
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орегаіоК для аргументов типа Іпсіех, как указано в комментарии, предшествующем 
программе 9 . 11 , то когда ЯхІІр выполняет сравнение ряШ с ря[к], она, по идее, 
сравнивает с1аіа.дгас1е[ря[Ш с сіаіа.дгасіе[ряЦ]]. Мы предполагаем, что Іпсіех — это класс- 
оболочка, объект которого может индексировать массивы, так что мы можем 
зафиксировать позицию сортирующего дерева, соответствующую значению индекса к в 
Яр[к], что, в свою очередь, позволяет реализовать операции изменить приоритет и удалить 
(см. рис. 9 . 13 ). Инвариант ря[ЯР[ к 11 = ЯРСРЧМІ = к поддерживается для всех к 
сортирующего дерева (см. рис. 9 . 13 ). 

ѣетрІаЪе <с1азз І1ет> 
сіазз Р<2 
{ 

ргіѵаѣе : 

іпѣ Ы; Іпсіех* рд; іпѣ* др; 
ѵоісі ехсЬ (Іпсіех і, Іпсіех }) 

{ іпѣ Ь; 

ъ = <зр[і]; яр[і] = чр [ з 3 ; яр[і] = ь; 
рд[яр[і]] = і; рчЕчрЕз]] = э; 

} 

ѵоісі ^іхЦр (Іпсіех а[], іпЪ к); 

ѵоісі іііхОокп (Іпсіех а[] , іпѣ к, іпЪ К); 

риЫіс: 

Р(2(іп'Ь шахЫ) 

{ рч = пек Іпсіех [тахИ+1] ; 

др = пек іп*Ь [тахЫ+1 ] ; N = 0 ; } 

іпѣ етрѣу( ) сопзѣ 

{ геѣигп N = 0 ; } 

ѵоісі іпзегЪ (Іпсіех, ѵ) 

{ рд[++Ы] ѵ; др[ѵ] = И; ^іхЦр(др, N >7 } 

Іпсіех деѣтах ( ) 

{ 

ехсЬ (рд[1] , рч[И] ) ; 

^іхЦокп(др, 1, N-1) ; 
ге-Ьигп др [N--1 ; 

} 

ѵоісі сЬапде (Іпсіех к) 

{ ІЕіхЦр (рд, др [к] ) ; *іхЦокп(рд, др[к] , Ы) ; } 

} ; 


Сопоставление этого подхода, обеспечивающего реализацию очереди по приори- 
тетам в полном объеме, с подходом из раздела 9.5, обнаруживает существенные раз- 
личие в конструкции АТД. В первом случае (программа 9.8, например) в обязанность 
реализации очереди по приоритетам входит распределение памяти под ключи и ее 
освобождение, изменение значений ключей и тому подобное. Абстрактный тип дан- 
ных предоставляет клиентской программе дескрипторы элементов данных, а эта про- 
грамма осуществляет доступ к элементам данных только за счет обращений к про- 
граммам поддержки очередей по приоритетам, передавая эти дескрипторы в 
параметрах. Во втором случае (например, программа 9.12) клиентская программа 
несет ответственность за ключи и записи, а программы поддержки очереди по при- 
оритетам осуществляют доступ к этой информации только через дескрипторы, выб- 
ранные пользователем (индексы массива в случае программы 9.12). В обоих случаях 
требуется обеспечить взаимодействие между клиентской программой и реализацией. 
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Обратите внимание, что в данной книге мы заинтересованы в таком взаимодей- 
ствии, которое выходит за рамки, очерченные механизмами поддержки языков про- 
граммирования. В частности, хотелось бы, чтобы характеристики производительно- 
сти реализаций соответствовали динамическому сочетанию операций, затребованному 
клиентской программой. Один из способов достижения такого соответствия — это 
применение реализаций с проверенными границами производительности в наихуд- 
шем случае, но в то же время многие задачи можно решить намного проще, сопос- 
тавляя требования этих задач в части производительности с возможностями простых 
реализаций. 

Упражнения 

9.48. Предположим, что массив заполнен ключами ЕА8Ѵ011Е8ТІОІЧ. По- 
казать содержимое массивов рч и цр после помещения этих ключей в первоначаль- 
но пустое сортирующее дерево, используя программу 9.12. 

о 9.49. Добавить в программу 9.12 операцию удалитъ. 

9.50. Реализовать АТД очереди по приоритетам для индексных элементов (см про- 
грамму 9.11), воспользовавшись представлением очереди по приоритетам в виде 
упорядоченного массива. 

9.51. Реализовать АТД очереди по приоритетам для индексных элементов (см. про- 
грамму 9.11), воспользовавшись представлением очереди по приоритетам в виде 
неупорядоченного массива. 

о 9.52. Для заданного массива из N элементов рассмотрим полное бинарное дере- 
во из 2М элементов (представленном в виде массива рч), содержащих индексы из 
этого массива, со следующими свойствами: (/) для і от 0 до N-1 имеем р^[N+і] и 
(//) для і от 1 до N - 1 имеем рд[і] = рч[2*і], если а[рд[2*і]]>а^[2*і+1]], и рц[і]= 
р Ч [2*і+1] - в противном случае. Такая структура называется турниром индексно- 
го сортирующего дерева (іпсіех Иеар Іоитатепі), поскольку сочетает свойства индек- 
сных сортирующих деревьев и турниров (см. программу 5.19). Запишите турнир 
индексного сортирующего дерева, соответствующий ключам ЕА8ѴС21ІЕ8Т 
ІОІЧ. 

о 9.53. Реализовать АТД очереди по приоритетам для индексных элементов (см. про- 
грамму 9.11), используя турнир индексного сортирующего дерева. 

9.7. Биномиальные очереди 

Ни одна из рассмотренных выше реализаций не может обеспечить высокоэффек- 
тивное выполнение в наихудшем случае сразу всех операций объединитъ , удалитъ наи- 
больший и вставитъ. Неупорядоченные связные списки позволяют быстро выполнять 
операции объединитъ и вставитъ , но на них медленно выполняется операция удалитъ 
наибольший ; упорядоченные связные списки позволяют быстро выполнять операции 
удалить наибольший , но на них медленно выполняются операции объединитъ и вста- 
витъ ; на сортирующем дереве быстро выполняются вставитъ и удалитъ наибольший , 
но медленно — операция объединитъ и т.д. (см. таблицу 9.1). В приложениях, в кото- 
рых операции объединитъ выполняются часто или в большом объеме, рекомендуется 
рассмотреть применение более совершенных структур данных. 
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В текущем контексте под термином "эффективная" понимается такая операция, 
для выполнения которой в наихудшем случае требуется время, не превосходящее ло- 
гарифмической зависимости. Создается впечатление, что это ограничение исключа- 
ет представления в виде массива, поскольку очевидно, что два массива можно объе- 
динить только путем перемещения всех элементов по крайней мере одного из 
массивов. Представление в виде неупорядоченного двухсвязного списка, предложен- 
ного программой 9.9, выполняет операцию объединить за постоянное время, но тре- 
бует просмотра всего списка при выполнении операции удалить наибольший. Исполь- 
зование двухсвязных упорядоченных списков (см. упражнение 9.39) позволяет 
выполнять операцию удалить наибольший за постоянное время, однако требует линей- 
ного времени для выполнения слияния списков в рамках операции объединить . 

Были разработаны многочисленные структуры данных, которые способны под- 
держивать эффективные реализации всех операций над очередями по приоритетам. 
Большая их часть базируется на прямом связном представлении пирамидально упо- 
рядоченных деревьев. Две связи необходимы для продвижения вниз по дереву (либо 
к двум потомкам в бинарном дереве, либо к первому потомку и к одному из следу- 
ющих потомков в бинарном представлении общего дерева) и одна связь с родителем 
требуется для продвижения вверх по дереву. Разработка реализаций операций, под- 
держивающих пирамидальный порядок на любой (пирамидально упорядоченной) дре- 
вовидной форме с явно определенными узлами и связями или на других представле- 
ниях в общем случае не требует особых ухищрений. Основная трудность сопряжена 
с такими динамическими операциями как вставить , объединить и удалить наибольший , 
которые требуют модификации древовидных структур. В основу различных структур 
данных положены различные стратегии модификации древовидных структур с одно- 
временным сохранением баланса в дереве. В общем случае алгоритмы используют 
деревья, обладающие большей гибкостью, нежели полные деревья, однако сохраня- 
ют их достаточно сбалансированными, чтобы временные показатели не выходили за 
пределы логарифмических границ. 

Затраты ресурсов на поддержание трехсвязных структур могут оказаться обреме- 
нительным — гарантия того, что конкретная реализация правильно использует три 
указателя во всех обстоятельствах, может оказаться достаточно трудной задачей (см. 
упражнение 9.40). Более того, в различных практических ситуациях трудно обосно- 
вать необходимость эффективной реализации всех без исключения операций, так что 
следует хорошо обдумать этот вопрос, перед тем как браться за подобную реализа- 
цию. С другой стороны, трудно доказать, что в таких эффективных реализациях нет 
необходимости, а затраты ресурсов на то, чтобы все операции над очередями с при- 
оритетами выполнялись быстро, практически всегда можно оправдать. Независимо от 
любых соображений подобного рода, следующий шаг, заключающийся в переходе от 
сортирующих деревьев к структурам данных с целью достижения эффективной реа- 
лизации операций вставить , объединить и удалить наибольший , сам по себе представ- 
ляет несомненный интерес и достоин подробного изучения. 

Даже для списочных представлений деревьев условие его пирамидальной упорядо- 
ченности и условие полноты пирамидально упорядоченного бинарного дерева явля- 
ются чрезмерно жесткими, в силу чего получение эффективной реализации операции 
объединитъ становится невозможной. Предположим, имеется два пирамидально упо- 
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рядоченных дерева, но как слить их в одно? Например, если одно из этих деревьев 
содержит 1023 узла, а другое — всего лишь 255 узлов, то какой способ выбрать для их 
слияния, чтобы получить дерево из 1278 узлов, не затрагивая более 10 или 20 узлов? 
На первый взгляд задача слияния пирамидально упорядоченных деревьев кажется 
вообще невозможной, если эти деревья являются пирамидально упорядоченными и 
полными, тем не менее, были предложены различные более совершенные структу- 
ры данных, которые позволили ослабить условия пирамидальной упорядоченности и 
сбалансированности с тем, чтобы придать структурам данных большую гибкость, не- 
обходимую для получения эффективной реализации операции объединитъ. Далее мы 
рассмотрим оригинальное решение этой проблемы, получившее название биноми- 
альной очереди, полученное Вильемином (Ѵиіііетіп) в 1978 г. 

Вначале следует отметить, что операция объединитъ Ооіп) тривиальна для одного 
специального типа дерева с ослабленным требованием необходимости быть пирами- 
дально упорядоченным. 

Определение 9.4. Бинарное дерево, содержащее узлы с ключами, называется левосто- 
ронним пирамидально упорядоченным (Іе/і Неар огдегед), если ключ каждого узла боль- 
ше или равен всем ключам левого поддерева этого ключа (если таковое имеется). 

Определение 9.5. Сортирующее дерево степени 2 есть левостороннее пирамидально 
упорядоченное дерево, состоящее из корневого узла с пустым правым поддеревом и пол- 
ным левым поддеревом. В дереве, соответствующем сортирующему дереву степени 2 по 
левому потомку, соответствие правому потомку называется биномиальным деревом 
(Ъіпотіаі ігеё). 

Биномиальные деревья и сортирующие деревья степени 2 эквивалентны. Мы бу- 
дем работать с обоими представлениями, поскольку в своем воображении несколько 
легче построить зрительный образ биномиальные дерева, в то время как упрощен- 
ное представление сортирующих деревьев степени 2 приводит к более простой реа- 
лизации. В частности, мы ощущаем свою зависимость от следующих факторов, явля- 
ющихся прямым следствием приведенных определений: 

■ Количество узлов сортирующего дерева степени 2 есть степень числа 2. 

■ Ни один из узлов не обладает ключом, который превосходит по значению ключ 
корня. 

■ Биномиальные деревья пирамидально упорядочены. 

Тривиальной операцией, на которой базируются все биномиальные алгоритмы, 
является объединение двух сортирующих деревьев степени 2, состоящих из одинако- 
вого числа узлов. В результате объединения получаем сортирующее дерево, содержа- 
щее в два раза большее число узлов, которое, как показано на рис. 9.16, совсем не- 
трудно построить. Корневой узел с большим значением ключа становится корнем 
результирующего дерева (другой исходный корень при этом становится потомком 
корня результирующего дерева), а его левое поддерево становится правым поддере- 
вом другого корневого узла. Если задано связное представление деревьев, то опера- 
ция объединения выполняется за постоянное время: мы всего лишь устанавливаем 
две связи в вершине. Программная реализация этой операции находится в програм- 
ме 9.13. Эта базовая операция является центральным звеном общего решения пробле- 
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мы реализации очереди по приоритетам без единой 
медленной операции, предложенного Виллемином 
(Ѵиіііетіп). 

Определение 9.6. Биномиальная очередь представ- 
ляет собой набор сортирующих деревьев степени 2, ни 
одно из которых не совпадает с остальными по разме- 
ру. Структура биномиальной очереди определяется чис- 
лом узлов этой очереди в соответствии с двоичным 
представлением целых чисел. 

Биномиальная очередь из N элементов содержит по 
одному сортирующему дереву на каждый бит двоично- 
го представления числа N. Например, биномиальная 
очередь из 13 узлов содержит одно 8-узловое сортиру- 
ющего дерево, одно 4-узловое и одно 1 -узловое дере- 
во (см. рис. 9.15). В биномиальной очереди размера N 
содержатся максимум 1§УѴ сортирующих деревьев сте- 
пени 2, высота которых не превосходит значения 1&/Ѵ. 

В соответствии с определениями 9.5 и 9.6, сортиру- 
ющие деревья степени 2 (и дескрипторы элементов 
данных) представляются как связи с узлами, содержа- 
щими ключ и две связи каждый (подобно явному дре- 
вовидному представлению турниров на рис. 5.10), а 
биномиальные очереди представляются как массивы 
сортирующих деревьев степени 2 путем включения сле- 
дующего кода в приватную часть программы 9.8: 

з-Ьгисѣ посіѳ 

{ І'Ьѳт і'Ьвт; посіѳ *1, *г; 

посіе (Нет ѵ) 

{ ііѳт = ѵ; 1 = 0; г = 0 ; } 

> ; 

■Ьуресіе^ посіѳ *1іпк; 

Ііпк* Ьд; 



РИСУНОК 9.15. БИНОМИАЛЬНАЯ 
ОЧЕРЕДЬ РАЗМЕРА 13 

Биномиальная очередь размера 
N представляет собой список 
левосторонних пирамидально 
упорядоченных сортирующих 
деревьев степеней 2, по одному 
на каждый бит двоичного 
представления числа N. Таким 
образом , биномиальная очередь 
размера 13 — 1 101 2 состоит из 
одного 8-узлового сортирующего 
дерева , одного 4-узлового и 
одного 1-узлового деревьев. На 
диаграмме показано 
представление в виде 
левостороннего пирамидально 
упорядоченного сортирующего 
дерева степеней 2 (сверху) и 
представление в виде 
биномиального пирамидально 
упорядоченного дерева (внизу) 
одной и той же биномиальной 
очереди. 


Программа 9.13. Объединение двух сортирующих деревьев 

степени 2 одинаковых размеров 

Чтобы объединить два сортирующих дерева степени 2 одинаковых размеров в одно 
сортирующее дерево степени 2 двойного размера достаточно изменить лишь несколько 
связей. Эта функция, которая в реализации определена как приватная функция-член, 
представляет собой ключевой фактор, обеспечивающий эффективность алгоритма 
биномиальной очереди. 


з'Ьа'Ьіс Ііпк раіг(1іпк р, Ііпк д) 

{ 

і^ (р-^'Ьѳт < % -> і^ѳт) 

{ р->г = д->1; д->1 = р; гѳѣигп ^ ; 
еізе {я~>г = р->1 ; р->1 = гѳЪигп 

) 
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Размеры массивов невелики и высота деревь- 
ев тоже, а само это представление обладает доста- 
точной гибкостью, чтобы стала возможной реали- 
зация всех операций с очередями по приоритетам 
менее чем за \%Ы шагов, как мы в этом сейчас 
убедимся. 

Начнем с рассмотрения операции вставить 
(іпзегі). Процесс вставки нового элемента в бино- 
миальную очередь в точности отображает процесс 
увеличения значения двоичного числа на единицу. 
Чтобы увеличить значения двоичного числа на 
единицу, мы двигаемся справа налево, заменяя 1 
на 0 в силу необходимости выполнения переноса, 
обусловленного тем, что 1 + 1 = Юг, пока не об- 
наружим 0 в самой правой позиции, который за- 
меняем единицей. Аналогичным образом, чтобы 
добавить в биномиальную очередь новый элемент, 
мы продвигаемся справа налево, выполняя слия- 
ние сортирующих деревьев, соответствующих би- 
там 1 с переносимым сортирующим деревом, пока 
не найдем самую правую пустую позицию, в кото- 
рую и помещаем переносимое дерево. 

В частности, для вставки нового элемента в 
биномиальную очередь мы превращаем новый 
элемент в 1 -узловое сортирующее дерево. Далее, 
если N есть четное число (значение самого право- 
го разряда равно 0), мы просто помещаем это сор- 
тирующее дерево в самую правую пустую позицию 
биномиальной очереди. Если N — нечетное число 
(значение самого правого разряда составляет 1), 
мы объединяем сортирующее 1 -дерево, соответ- 
ствующее новому элементу, с сортирующим 1 -де- 
ревом в самой крайней правой позиции биноми- 
альной очереди, в результате чего получаем 
сортирующее 2-дерево переноса. Если позиция, 
соответствующая 2 в биномиальной очереди, пус- 
та, то сортирующее дерево переноса помещается 
в эту позицию, в противном случае производится 
слияние сортирующего 2 -дерева переноса с сор- 
тирующим 2 деревом из биномиальной очереди, 
образуя при этом 4-дерево переноса, и так про- 
должая процесс до тех пор, пока не будет достиг- 
нута пустая позиция в биномиальной очереди. 
Этот процесс демонстрируется на рис. 9.17, а в 
программе 9.14 приведена его реализация. 







РИСУНОК 9.16. ОБЪЕДИНЕНИЕ ДВУХ 
СОРТИРУЮЩИХ ДЕРЕВЬЕВ СТЕПЕНИ 
2 ОДИНАКОВОГО РАЗМЕРА 

Мы объединяем два сортирующих 
деревьев степени 2 (сверху), помещая 
больший из двух корней в вершину 
результирующего дерева, при этом 
поддерево (левое) этого корня 
становится правым поддеревом 
другого исходного корня. Если 
операнды содержат 2" узлов, то 
результат содержит 2 п+[ узлов. Если 
операндами являются пирамидально 
упорядоченные левосторонние 
деревья, такой же порядок 
сохраняется и в результирующем 
сортирующем дереве, при этом ключ 
с наибольшим значением находится в 
корне. Отображение той же 
операции, ориентированной на 
представление пирамидально 
упорядоченного биномиального дерева, 
показано под разделительной чертой. 
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Программа 9.14. Вставка в биномиальную очередь 

Для вставки узла в биномиальную очередь его сначала 
потребуется превратить в 1 -дерево и идентифицировать 
как сортирующее 1 -дерево переноса, а затем повторять в 
цикле следующий процесс, начиная с / = 0. Если в 
биномиальной очереди сортирующее 2-дерево 
отсутствует, в очередь помещается 2-дерево переноса. 
Если в биномиальной очереди такое дерево есть, оно 
объединяется с таким же новым деревом (с применением 
функции раіг из программы 9.13) и получается 2' +1 -дерево, 
после чего значение / увеличивается на 1 и процесс 
продолжается до тех пор, пока не обнаруживается пустая 
позиция для сортирующего дерева в биномиальной 
очереди. 

Ьапсііе іпзегЪ ( I Ьвт) 

{ Ііпк Ь = пек посіе (ѵ) , с = Ъ; 

±ох (іпѣ і = 0; і < тахВОзіге; і++) 

{ 

(с == 0) Ьгеак; 
і* (Ьд[і] == 0) 

{ Ьд[і] = с; Ьгеак; } 
с = раіг (с, Ья [ і ] ) ; Ьд[і] = 0; 

> 

геЬигп 1; 

> 


Другие операции, выполняющиеся в биномиаль- 
ных очередях, понять проще, если сравнить их с опе- 
рациями двоичной арифметики. Как мы вскоре убе- 
димся, реализация операции объединить соответствует 
реализации операции сложения двоичных чисел. 

Предположим на момент, что в нашем распоряже- 
нии имеется (эффективная) функция для операции 
объединить 0°іп), предназначенная для слияния оче- 
реди по приоритетам, ссылка на которую передается во втором операнде функции, 
с очередью по приоритетам, ссылка на которую находится в первом операнде (резуль- 
тат выполнения операции сохраняется в первом операнде). С использованием этой 
функции можно реализовать операцию вставить (іп$еП) за счет вызова функции объе- 
динить , в одной из операндов которой передается биномиальная очередь размером 
1 (см. упражнение 9.63). 

Можно также реализовать операцию удалить наибольший (гетоѵе іНе тахітит) пу- 
тем одного вызова операции объединить. Для нахождения максимального элемента в 
биномиальной очереди просматриваются сортирующие деревья степени 2 этой очере- 
ди. Каждое такое дерево — левостороннее пирамидально упорядоченное сортирую- 
щее дерево, следовательно, максимальный его элемент находится в корне. Больший 
из корневых элементов является наибольшим элементом биномиальной очереди. 
Поскольку в биномиальной очереди не может быть более 1§7Ѵ деревьев, общее вре- 
мя поиска наибольшего элемента меньше 1§7Ѵ. 




(уѵ) □ □ □ 

(ЩКЩ) 

РИСУНОК 9.17. ВСТАВКА 
НОВОГО ЭЛЕМЕНТА В 
БИНОМИАЛЬНУЮ ОЧЕРЕДЬ 

Добавление элемента в 
биномиальную очередь из семи 
узлов аналогично выполнению 
арифметической операции 
двоичного сложения Ш 2 + 1 = 

1 000 2 с переносом в каждом 
разряде. В результате получаем 
биномиальную очередь, 
представленную в нижней 
части диаграммы и состоящую 
из 8-дерева , причем 4-, 2- и 
1 -деревья отсутствуют. 
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Программа 9.15. Удаление наибольшего элемента из биномиальной очереди 

Сначала производится просмотр корневых узлов, чтобы выяснить, какой из них больше, 
затем из биномиальной очереди удаляется сортирующее дерево степени 2, 
содержащее наибольший элемент. Далее из сортирующего дерева степени 2 удаляется 
корневой узел, содержащий наибольший элемент, и временно строится биномиальная 
очередь, которая содержит остальные составляющие части сортирующего дерева 
степени 2. В завершение при помощи операции объединить выполняется слияние 
полученной таким путем биномиальной очереди и исходной биномиальной очереди. 

Іѣет дѳѣтах ( ) 

{ іігЬ і, тах; Нет ѵ = 0 ; 

1±пк* ѣѳтр = пеѵ Ііпк [тахВфзіге] ; 

^ог ( і = 0, тах = -1; і < тахВОзіге; і++) 
і* ( Ьд[і] ! =0) 

іі: ((тах == -1) || (ѵ < Ъд [і] ^Пет) ) 

{ тах = і ; ѵ = Ьд[тах] ->іівт; } 

Ііпк х = Ъд[тах]->1; 

і5ог (і = тах; і < тахВОзіге; і++) ѣетр[і] = 0; 
і?ог (і = тах; і > 0; і — ) 

{ ѣетр[і-1] = х; 
х = х->г ; 
ѣетр [і-1] ->г = 0; 

} 

сіеіеіа Ьд[тах] ; Ьд[тах] = 0; 

ВОзоіп (Ъд, Ъетр) ; 

ЦеІеЪе 'Ьетр; 
ге-Ьигп ѵ; 

} 


Перед выполнением операции удалить наибольший 
(гетоѵе іНе тахітит) потребуется отметить, что удале- 
ние корня левостороннего сортирующего 2*-дерева 
приводит к появлению к левосторонних сортирующих 
деревьев степени 2 — 2 к ~ ] -дерево, 2* -2 -дерево и так да- 
лее — которые легко реструктурировать в биномиаль- 
ную очередь размера 2 к — 1, как показано на рис. 9.18. 
Затем можно воспользоваться операцией объединить , 
чтобы объединить биномиальную очередь с остальной 
частью исходной очереди с целью завершения операции 
удалить наибольший. Эта реализация показана в про- 
грамме 9.15. 

Каким образом объединяются две биномиальных 
очереди? Прежде всего, следует отметить, что эта опе- 
рация тривиальна, если обе очереди не содержат сор- 
тирующих деревьев степени 2 одинакового размера, 
как показано на рис.9 Л 9; мы просто выполняем слия- 
ние деревьев из обеих биномиальных очередей и полу- 
чаем одну биномиальную очередь. Очередь размера 10 
(состоящая из 8-дерева и 2-дерева) и очередь размера 
5 (состоящая из 4-дерева и 1 -дерева) путем простого 



РИСУНОК 9.18. УДАЛЕНИЕ 
НАИБОЛЬШЕГО ЭЛЕМЕНТА ИЗ 
СОРТИРУЮЩЕГО ДЕРЕВА 
СТЕПЕНИ 2. 

Убрав корень, получаем бор 
сортирующих деревьев степени 
2; все они левосторонне 
пирамидально упорядочены , при 
этом их корни берутся из 
правого ствола дерева. Эта 
операция позволяет найти 
способ удаления наибольшего 
элемента из биномиальной 
очереди: убираем корень 
сортирующего дерева степени 2, 
которое содержит наибольший 
элемент, затем выполняем 
операцию объединить для 
слияния полученной 
биномиальной очереди с 
остальными сортирующими 
деревьями степени 2 исходной 
биномиальной очереди. 
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слияния образуют очередь размера 15 (состоящую 
из 8-дерева, 4-дерева, 2-дерева и 1 -дерева). Спо- 
соб, рассчитанный на более общие случаи, выпол- 
няется по прямой аналогии со сложением двух дво- 
ичных чисел, дополненного переносом (см. рис. 

9.20). 

Например, если очередь размером 7 (состоящую 
из 4-дерева, 2-дерева и 1 -дерева) добавить к очере- 
ди размером 3 (состоящую из 2-дерева и 1 -дерева), 
получится очередь размером 10 (состоящая из 8-де- 
рева и 2-дерева). Для сложения потребуется слить 
1 -деревья и выполнить перенос 2-дерева, затем 
слить 2-деревья и выполнить перенос 4-дерева, за- 
тем слить 4-деревья, чтобы в результате получить 8- 
дерево точно таким же способом, каким выполня- 
ется двоичное сложение 01 1 2 + 111 2 === 1 0 1 02. Пример, 
представленный на рис. 9.19, проще примера, пока- 
занного на рис. 9.20, поскольку он аналогичен опе- 
рации сложения 1010 2 + 010І2=1 1 1 Ь- 

Столь непосредственная аналогия с операциями 
двоичной арифметики вплотную подводит к есте- 
ственной реализации операции объединить (см. про- 
грамму 9.16). Для каждого разряда приходится 
рассматривать восемь возможных случаев в зависи- 
мости от значения каждого из 3 разрядов (перенос 
и два разряда в операндах). Соответствующая про- 
грамма ненамного сложнее, чем программа про- 
стого арифметического сложения, поскольку в этом 
случае мы имеем дело с четко различимыми сорти- 
рующими деревьями, а не с неразличимыми бита- 
ми, однако в обоих случаях принципиальных труд- 
ностей не возникает. Например, если все три 
разряда принимают значения 1, мы должны оста- 
вить одно дерево в получающейся биномиальной очереди, а два других объединить и 
перенести в следующую позицию. В самом деле, эта операция предоставляет полный 
цикл на абстрактных типах данных: мы (открыто) противимся искушению перевес- 
ти программу 9.16 в статус абстрактной двоичной дополнительной процедуры, в рам- 
ках которых реализация биномиальной очереди есть ни что иное, как клиентская 
программа, использующая более сложную процедуру сложения битов, представленную 
программой 9.13. 


РИСУНОК 9.19. ОБЪЕДИНЕНИЕ ДВУХ 
БИНОМИАЛЬНЫХ ОЧЕРЕДЕЙ (БЕЗ 
ПЕРЕНОСА) 

В том случае , когда две 
объединяемые биномиальные очереди 
содержат только сортирующие 
деревья степени 2, размеры которых 
попарно различны , операция 
объединения есть ни что иное как 
слияние. Выполнение этой операции 
аналогично сложению двух двоичных 
чисел, в условиях которой не 
встречаются сложения типа 1 + 1 
(т.е. без переносов). В 
рассматриваемом случае 
биномиальная очередь из 10 узлов 
сливается с очередью из 5 узлов, 
результатом чего является 
биномиальная очередь из 15 узюв, 
соответствующая операции 
1010 2 + 0101 2 = 1111 2 . 


Лемма 9.7. Все операции на очереди по приоритетам как на абстрактном типе данных 
могут быть реализованы на биномиальной очереди таким образом, что для выполнения 
любой из них на очереди из N элементов требуется 0( 1§УѴ) шагов. 
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Указанные рамки производительности служат це- 
лью разработки соответствующей структуры данных. 
Они представляют собой последствия того факта, что 
во всех реализациях имеется один или два цикла, 
которые выполняют итерацию на корнях деревьев 
биномиальной очереди. 

Программа 9.16. Объединение (слияние) двух 
биномиальных очередей 

Данная программа моделирует арифметическую 
операцию сложения двух двоичных чисел. Продвигаясь 
справа налево с начальным значением разряда переноса, 
равным 0, принимается во внимание три возможных 
случая (учитываются все возможные значения операндов 
и разряда переноса). Например, случай 3 соответствует 
условиям, когда биты обоих операндов принимают 
значения 1 , а бит переноса — значение 0. В этом случае 
результатом будет 0, но перенос принимает значение 1 
(т.е., результат сложения значений разрядов операндов). 

Подобно функции раіг, рассматриваемая функция 
является приватной функцией-членом реализации, которая 
вызывается функциями деітах и іоіп. Функция 
абстрактного типа данных ]оіп(РСКІіет>& р) реализована 
в виде вызова ВО]оіп(Ьд, р.Ьд). 

в'Ьа'Ьіс іпііпе іхгЬ ѣеаѣ( іпЬ С, іпЬ В, іпЬ А) 
{гвЬигп 4*С + 2*В + 1*А} 
вѣаѣіс ѵоісі ВОзоіп (Ііпк *а , Ііпк *Ъ) 

{ Ііпк с = 0; 

*ог (іп'Ь і = 0; і < тахВОзіге; і++) 
аѵіЬсЬ (ЪвзЪ(с !» 0; Ъ[і] !* 0, а[і] !* 0)) 

{ 

сазѳ 2: а[і] = Ъ[і] ; Ьгеак; 
сааѳ 3: с = раіг (а [і], Ь[і]>; 

а[і] * 0; Ьгеак; 
саае 4: а[і] *с, с =0 ; Ьгеак; 
саае 5: с = раіг (с, а[і]); 

а[і] = 0; Ьгеак; 

саае б : 

саае 7: с * раіг(с, Ь[і]); Ьгеак; 

} 

} 





РИСУНОК 2.20. ОБЪЕДИНЕНИЕ 
ДВУХ БИНОМИАЛЬНЫХ ОЧЕРЕДЕЙ 

Добавление биномиальной очереди 
из 3 узлов к биномиальной очереди 
из 7 узлов имеет своим 
результатом очередь из 10 узлов 
как результат выполнения 
процесса , который моделирует 
операцию сложения 
01 1 2 +1 1 1 2 =1010 2 двоичной 
арифметики. Сложение N и Е 
дает пустое 1-дерево и перенос 2- 
дерева, содержащего узлы N и Е. 
Последующее сложение трех 2- 
деревьев оставляет одно из них в 
итоговой очереди , а в перенос 
попадает 4-дерево , содержащее 
узлы ТМЕІ. Это 4-дерево 
складывается с другим 4-деревом , 
образуя биномиальную очередь , 
показанную в нижней части 
диаграммы. Процесс охватывает 
небольшое количество узлов. 


В целях упрощения будем считать, что наши реализации проходят в цикле через 
все деревья, так что время их выполнения пропорционально логарифму максималь- 
ного размера биномиальной очереди. Можно сделать так, чтобы эти реализации со- 
ответствовали указанным граничным значениям в тех случаях, когда фактический 
размер очереди намного меньше, чем ее максимальный размер, путем отслеживания 
размеров очереди или за счет выбора соответствующего значения сигнальной метки, 
отмечающей точки, в которых циклы должны прекратиться (см. упражнения 9.61 и 
9.62). Во многих ситуациях результат внесения подобного рода изменений не стоит 
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затраченных на них усилий, поскольку максимальный размер очереди экспоненци- 
ально превосходит максимальное число итераций циклов. Например, если в качестве 
максимального размера очереди принимается 2 16 , а количество элементов очереди 
обычно выражается тысячами, то простейшие из реализаций будут повторять цикл 15 
раз, в то время как более сложные методы снижают число повторений цикла всего 
лишь до 11 или 12, при этом на поддержание максимального размера очереди и сиг- 
нальной метки требуется дополнительный расход ресурсов. С другой стороны, безос- 
новательный выбор большого значения максимума может привести к тому, что на 
очередях малых размеров программы начнут работать медленнее, нежели рассчиты- 
валось. 

Лемма 9.8. Построение биномиальной очереди с выполнением N операций вставок в пер- 
воначально пустую очередь требует выполнения 0(1Ѵ) сравнений в наихудшем случае. 

Для одной половины вставок (когда размер очереди представлен четным числом 
и 1 -деревья отсутствуют) операции сравнения вообще не требуются; для полови- 
ны оставшихся вставок (если нет 2-деревьев) требуется лишь одна операция срав- 
нения; если нет 4-деревьев, требуется только 2 операции сравнения и т.д. Следо- 
вательно, общее число сравнений меньше 0 • А/ 2 + 1 • УѴ/4 + 2 • АУ 8 +... < N. Что 
касается леммы 9.7, то нам нужна одна из модификаций из числа тех, которые 
рассматривались в упражнениях 9.61 и 9.62, чтобы получить в наихудшем случае 
время выполнения, не превышающее линейного. 

Как уже упоминалось в разделе 4.8, мы не рассматривали вопросов распределения 
памяти при реализации операции объединить в программе 9.16. В силу этой причины 
при выполнении операции имеет место утечка памяти, так что в некоторых ситуациях 
она становится непригодной. Для исправления этого дефекта потребуется уделить 
соответствующее внимание вопросу распределения памяти под аргументы и возвра- 
щаемое значение функции, которая реализует операцию объединить (см. упражнение 
9.65). 

Для биномиальных очередей характерно высокое быстродействие, тем не менее, 
были предложены специальные структуры данных, которые обладали в теоретичес- 
ком плане еще лучшими характеристиками, гарантировано обеспечивая постоянное 
время выполнения некоторых операций. Эта проблема вызывает интерес и предла- 
гает разработчиками структур данных широкое поле деятельности. С другой сторо- 
ны, практическое применение многих из этих, понятных только посвященным, 
структур весьма сомнительно, а мы должны знать, что от некоторых имеющих мес- 
то ограничений эффективности можно избавиться только путем снижения времени 
выполнения некоторых операций на очередях по приоритетам, прежде чем пускаться 
на поиски сложных решений в области структур данных. И в самом деле, для прак- 
тических применений предпочтение следует отдавать тривиальным структурам при 
отладке и при работе с очередями малых размеров; далее, для ускорения операций, 
если речь не идет о получении быстродействующей операции объединить , необходи- 
мо использовать сортирующие деревья. Наконец, биномиальными очередями следу- 
ет пользоваться, если требуется получить логарифмическое время выполнения всех 
операций. Однако, принимая во внимание все сопутствующие факторы, приходим к 
выводу, что пакет очередей по приоритетам на базе биномиальных очередей являет- 
ся, несомненно, ценным вкладом в библиотеку программного обеспечения. 
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Упражнения 

О 9.54. Вычертить биномиальную очередь размера 29, воспользовавшись представ- 
лением в виде биномиального дерева. 

• 9.55. Напишите программу построения представления биномиальной очереди в 
виде биномиального дерева заданного размера N (только узлы, соединенные реб- 
рами, но не ключи). 

9.56. Построить биномиальную очередь, которая получится, если ключи Е А 8 У 
О II Е 8 Т I О N вставляются в первоначально пустую биномиальную очередь. 

9.57. Построить биномиальную очередь, которая получится, если ключи Е А 8 У 
вставляются в первоначально пустую биномиальную очередь, и построить биноми- 
альную очередь, которая получится, если вставить ключи (}ПЕ8ТІС^в пер- 
воначально пустую очередь. Затем выполните операцию удалить наибольший в обе- 
их очередях и представьте результат. И наконец, представьте результат 
выполнения операции объединить применительно к полученным очередям. 

9.58. Используя соглашения из упражнения 9.1, построить последователь- 
ность биномиальных очередей, полученных в результате того, что опера- 
ции РКІО*К**І*Т*У***ріІЕ***ІІ*Е выполняются на первоначально пустой бино- 
миальной очереди. 

9.59. Используя соглашения из упражнения 9.1, построить последовательность би- 
номиальных очередей, полученных в результате того, что операции 

(((РКІО*) + (К *ІТ*У*))***)+ ((21ІЕ***ІІ*Е) 

выполняются на первоначально пустой биномиальной очереди. 




узлов на уровне 


9.60. Доказать, что биномиальное дерево с 2" узлами имеет 

/, причем 0 < і < п. (Этот факт и послужил причиной того^ч/о подобного рода 
структура данных получила название биномиального дерева). 


о 9.61. Построить такую программную реализацию биномиальной очереди, чтобы 
выполнялась лемма 9.7, внося изменение в тип данных биномиальной очереди , что- 
бы он содержал размер этой очереди с целью последующего использования этого 
значения для управления циклами. 


о 9.62. Построить такую программную реализацию биномиальной очереди, чтобы 
выполнялась лемма 9.7. Использовать для этой цели сигнальный указатель, отме- 
чающий точку, в которой циклы должны завершаться. 


• 9.63. Реализовать операцию вставить (іпзегі) для биномиальных очередей путем 
явного использованием одной лишь операции объединить (]оіп). 


•• 9.64. Реализовать операцию изменить приоритет (сНаще ргіогНу) и удалить (гетоѵе) 
для биномиальных очередей. Совет : Потребуется добавить третью связь, которая 
указывает на узлы вверх по дереву. 
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• 9.65. Добавить деструктор, конструктор копирования и перегруженную операцию 
присваивания в реализации биномиальной очереди (программы 9.13—9.16), при- 
веденные в тексте книги, с целью разработки реализации АТД первого класса из 
упражнения 9.43. Написать программу-драйвер, которая сможет протестировать 
полученные интерфейс и реализацию. 

• 9.66. Эмпирическим путем сравнить биномиальные очереди с сортирующими де- 
ревьями с целью их использования в качестве основы для сортировки (как в про- 
грамме 9.6) произвольно упорядоченных ключей при N = 1000, ІО 4 , ІО 5 и ІО 6 . Со- 
вет: см. упражнение 9.37. 

• 9.67. Разработать метод обменной сортировки, аналогичной сортирующему дере- 
ву, но основанной на биномиальных очередях. Совет: см. упражнение 9.37. 




Поразрядная 

сортировка 


В о многих приложениях сортировки ключи, которые 
используются для определения порядка следования за- 
писей в файлах, могут иметь сложную природу. Напри- 
мер, рассмотрим, насколько сложными являются ключи, 
используемые в телефонной книге или в библиотечном 
каталоге. Чтобы отделить все эти сложности от наиболее 
важных свойств методов сортировки, изучением которых 
мы занимались, ограничимся использованием только ба- 
зовых операций сравнения двух ключей и обмена места- 
ми двух записей (все детали манипулирования ключами в 
этих функциях все это время оставались скрытыми) как 
абстрактным интерфейсом между методами сортировки и 
применениями этих методов из глав 6-9. В данной главе 
мы займемся изучением еще одной абстракции, отличной 
от рассмотренных выше, применительно к ключам сорти- 
ровки. Например, довольно часто нет необходимости в 
обработке ключей в полном объеме на каждом этапе: что- 
бы найти телефонный номер какого-либо конкретного 
абонента вполне достаточно проверить несколько первых 
букв его фамилии, чтобы найти страницу, на которой на- 
ходится искомый номер. Чтобы достигнуть такой же эф- 
фективности сортировочных алгоритмов, мы должны пе- 
рейти от абстрактных операций, в рамках которых мы 
выполняли сравнение ключей, к абстракциям, в условиях 
которых мы разделяем ключи на последовательности пор- 
ций фиксированных размеров или байтов. Двоичные чис- 
ла представляют собой последовательности битов, строки 
— последовательности символов, десятичные числа — - пос- 
ледовательности цифр, и многие другие типы ключей (но 
далеко не все) можно рассматривать под таким же углом 
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зрения. Методы сортировки, построенные на обработке чисел по одной порции за 
раз, называются поразрядными (гасііх) методами сортировки . Эти методы не только вы- 
полняют сравнение ключей: они обрабатывают и сравнивают соответствующие части 
ключей. 

Алгоритмы поразрядной сортировки рассматривают ключи как числа, представ- 
ленные в системе счисления с основанием Я при различных значениях Я ( основание 
системы счисления ), и работают с отдельными цифрами чисел. Например, если маши- 
на в почтовом отделении обрабатывает пачку пакетов, каждый из которых помечен 
десятичным числом из пяти цифр, она распределяет эту пачку на десять отдельных 
стопок: в одной стопке находятся пакеты, номера которых начинаются с 0, в другой 
находятся пакеты с номерами, начинающимися с 1, в третьей — с 2 и т.д. При необ- 
ходимости каждая из стопок может быть подвергнута отдельной обработке с приме- 
нением того же метода к следующей цифре или более простого метода, если в стоп- 
ке осталось всего лишь несколько пакетов. Если бы перед нами стояла задача 
распределения пакета в стопки в порядке от 0 до 9 и в том порядке отсортировать 
каждую стопку, то будет упорядочен весь пакет. Эта процедура является простым при- 
мером поразрядной сортировки с Я =10, именно такой метод сортировки чаще все- 
го выбирается как наиболее подходящий в различных практических приложениях, в 
которых ключами являются десятичные числа, содержащие от 5 до 10 цифр, напри- 
мер, почтовые коды, телефонные номера или коды службы социальной защиты. Под- 
робно этот метод рассматривается в разделе 10.3. 

Для различных приложений подходят различные основания системы счисления Я. 
В этой главе мы главным образом сосредоточимся на ключах, представленных в виде 
целых чисел и строк, для сортировки которых широко применяются методы пораз- 
рядной сортировки. Для целых чисел в силу того обстоятельства, что они представле- 
ны в компьютерах в виде двоичных чисел, мы чаще других будем выбирать для ра- 
боты Я = 2 или одну из степеней числа 2, поскольку такой выбор позволяет разложить 
ключи на независимые друг от друга порции. Что касается ключей, в состав которых 
входят строки символов, мы используем Я = 128 или Я = 256, приравнивающий ос- 
нование системы счисления к размеру байта. Помимо такого рода прямых приложе- 
ний мы можем в конечном итоге рассматривать фактически все , что может быть пред- 
ставлено в цифровом компьютере как двоичное число, благодаря чему мы имеем 
возможность сориентировать многие приложения сортировки на использование раз- 
личных типов ключей с тем, чтобы сделать возможной использование поразрядной 
сортировки для упорядочения ключей, представляющих собой двоичные числа. 

В основе алгоритмов поразрядной сортировки лежит абстрактная операция из- 
влечь из ключа /- ю цифру. К счастью, в С++ существуют низкоуровневые операции, 
благодаря которым можно реализовать такие действия просто и эффективно. Этот 
факт очень важен, поскольку многие другие языки программирования (например, 
Ра$са1), поощряя написание машинно-независимых программ, намеренно создают 
трудности в написании программ, которые зависят от способа представления чисел в 
конкретной машине. В таких языках достаточно трудно реализовать многие типы 
методы побитовых манипуляций, которые хорошо подходят для большинства компь- 
ютеров. В частности, на текущий момент поразрядную сортировку можно считать 
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жертвой этой "прогрессивной" философии. Однако разработчики С и С++ признают, 
что подобного рода манипуляции с битами часто бывают весьма полезными, и при 
реализации поразрядной сортировки мы имеем возможность воспользоваться низко- 
уровневыми языковыми средствами. 

Требуется также надежная поддержка со стороны аппаратных средств; мы не мо- 
жем считать такую поддержку само собой разумеющимся фактом. Некоторые маши- 
ны (как старые, так и новые модели) предлагают эффективные способы представле- 
ния малых значений данных, в то же время характеристики производительности 
других типов машин (как старых, так и новых моделей) на этих операциях суще- 
ственно снижаются. Поскольку алгоритм поразрядной сортировки достаточно просто 
выражается в терминах операции извлечения конкретной цифры, задача достижения 
максимальной производительности алгоритма поразрядной сортировки может ока- 
заться весьма интересным вхождением в среду аппаратного и программного обеспе- 
чения. 

Существуют два принципиально различных базовых подхода к поразрядной сор- 
тировке. Первый класс методов составляют алгоритмы, которые анализируют значе- 
ние цифр в ключах в направлении слева направо, при этом первыми обрабатывают- 
ся наиболее значащие цифры. Такие методы в общем случае называются поразрядной 
сортировкой МЗО (тозі з'щп'фсапі йіф гайіх зогі — Поразрядная сортировка сначала по 
старшей цифре). Поразрядная сортировка МЗП привлекательна прежде всего тем, что 
в этом случае анализируется минимальный объем информации, необходимый для 
выполнения сортировки (см. рис. 10.1). Поразрядная сортировка М80 обобщает по- 
нятие быстрой сортировки, поскольку она выполняется за счет разделения сортиру- 
емого файла в соответствии со старшими цифрами 
ключей, после чего тот же метод применяется к 
подфайлам в режиме рекурсии. В самом деле, в 
условиях, когда в качестве основания системы 
счисления выбрана 2, мы реализуем поразрядную 
сортировку М50 тем же способом, что и быструю 
сортировку. Во втором классе методов поразряд- 
ной сортировки используется другой принцип: они 
анализируют цифры ключей в направлении справа 
налево, работая с сначала с наименее значащей 
цифрой. Эти методы в общем случае называются 
поразрядной сортировкой ЬЗП (Іеазі зі&гфсапі йі%іі гайіх 
зогі — Поразрядная сортировка сначала по младшей 
цифре). Поразрядная сортировка ЬЗИ в какой-то 
степени противоречит интуиции, поскольку основ- 
ную часть процессорного времени затрачивается 
на обработку цифр, которые не могут повлиять на 
результат, однако эта проблема легко решается, и 
этот почтенный метод выбирается в качестве базо- 
вого во многих приложениях сортировки. 
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РИСУНОК 10.1. ПОРАЗРЯДНАЯ 
СОРТИРОВКА 

Несмотря на то что между 0 и 1 в 
рассматриваемом списке находятся 
11 чисел (столбец слева), 
содержащих в совокупности 99 
цифр, мы можем установить на них 
порядок (столбец в центре) путем 
анализа всего лишь 22 цифр 
(столбец справа). 
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10.1. Биты, байты и слова 

Ключевое условие для понимания сути поразрядной сортировки состоит в призна- 
нии того, что (/) компьютеры в общем случае ориентированы на обработку групп 
битов, называемых машинными словами , которые в свою очередь часто объединяются 
в небольшие фрагменты, называемые байтами ; (//) ключи сортировки обычно так- 
же организуются в последовательности байтов, (ш) короткие последовательности бай- 
тов могут также служить индексами массивов или машинными адресами. Поэтому нам 
будет удобно работать со следующими абстракциями. 

Определение 10.1. Байт представляет собой последовательность битов фиксирован- 
ной длины , строка есть последовательность байтов переменной длины, слово есть пос- 
ледовательность байтов фиксированной длины. 

В зависимости от контекста ключом в поразрядной сортировке может быть слово 
или строка. Некоторые из алгоритмов поразрядной сортировки, которые предстоит 
рассмотреть в настоящей главе, используют свойство ключей принимать фиксирован- 
ную длину (слова), другие разрабатываются с целью приспособиться к ситуации, когда 
ключи имеют переменную длину (строки). 

Типичная машина оперирует 8-разрядными байтами и 32- и 64-разрядными сло- 
вами (фактические значения можно найти в заголовочном файле <1ітіІ$.Ь>), одна- 
ко удобнее иметь возможность рассматривать также и некоторые другие размеры 
байтов и слов (в общем случае небольшие кратные целые конструктивных машинных 
размеров или их части). Мы используем в качестве числа разрядов в слове и числа 
разрядов в байте машинно-зависимые и зависимые от приложений константы, напри- 
мер: 

соп8ѣ іпѣ Ьі'Ьзѵогсі = 32; 

сопзѣ іпѣ ЪіѣзЪуѣе = 8 ; 

сопзѣ іп*Ь Ъуѣезѵогсі = ЬіЪзѵогсІ/Ъі'ЬзЪуЬе; 

сопзѣ іпѣ К=1 « ЪіѣзЪуЪе; 

В эти определения для последующего использования, когда мы начнем рассмат- 
ривать поразрядные сортировки, включается также константа Я, представляющая 
число различных значений байтов. Пользуясь этими определениями мы в общем слу- 
чае предполагаем, что Ъіі§\ѵоп1 является кратным ЬіізЬуіе, что число битов в машин- 
ном слове не меньше (обычно равно) Ък§^ѵогсІ, и что байты допускают индивидуаль- 
ную адресацию. В различных компьютерах реализованы различные соглашения, 
касающиеся ссылок на их биты и байты, для целей наших рассуждений мы будем счи- 
тать, что биты в слове перенумерованы слева направо, от 0 до Ьііз^огсі- 1 , и байты в слове 
перенумерованы слева направо, от 0 до Ьуіех^огё- 1 . В обоих случаях мы полагаем, что 
нумерация производится от наибольшего значения к наименьшему значению. 

В большинстве компьютеров реализованы битовые операции и (апф и сдвиг ($ЬіГі), 
которыми мы можем воспользоваться для извлечения отдельных байтов из слов. В 
С++ мы можем прямо написать операции извлечения і?-ого байта из двоичного А 
слова следующим образом: 

іпііпе іпЪ <іідіѣ(1опд А, іпѣ В) 

{ геѣигп (А » ЪіЪзЪуЬе* (Ьуѣезѵогсі-В-1) & (К-1) ; } 
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Например, данная макрокоманда извлекает байт 2 (третий байт) 32-разрядного 
числа путем сдвига вправо на 32 - 3 * 8 = 8 позиций с последующим использованием 
маски 00000000000000000000000011111111 с целью обнуления всех разрядов за исклю- 
чением искомого байта, занимающего 8 разрядов справа. 

Многие машины организованы таким образом, что в качестве размера байта взято 
основание одной из систем счисления, в силу чего обеспечивается быстрая выборка 
нужных битов в рамках одного доступа. Эта операция непосредственно поддержива- 
ется С++ строками в С-стиле: 

іпііпе іпЪ сІідіЪ(сЬаг* А, В) 

{ геЪигп А [В] ; } 

Если мы используем структуру-оболочку, подобную рассмотренной в разделе 6.8, 
мы будем записывать: 

іпііпе іпЪ сііді'Ь (Ііет& А, іпі В) 

{ геЪшгп А.зЪг[В]; } 

Этот подход может быть использован также и для чисел, хотя различие схем пред- 
ставления чисел может сделать эти программные коды непереносимыми. В любом 
случае мы должны сознавать, что такого рода операции доступа к отдельным байтам 
в некоторых вычислительных средах могут быть реализованы на базе операций сдвига 
и маскирования, подобных рассмотренным в предыдущих параграфах. 

На другом уровне абстракции, несколько отличном от рассматриваемого, мы мо- 
жем представлять себе ключи как числа и байты как цифры. Если выбрано (ключ 
представлен как) число, то базовая операция, необходимая для реализации поразряд- 
ной сортировки есть извлечение из числа цифры. Когда мы выбираем в качестве ос- 
нования для системы счисления степень 2, цифрами являются группы битов, к кото- 
рым мы легко можем получить доступ используя рассмотренные выше макросы. В 
самом деле, основной причиной того, что в качестве основания системы счисления 
используется степень 2 является то, что операция доступа к группе битов не требует 
больших затрат. В некоторых вычислительных средах можно выбирать другие осно- 
вания систем счисления. Например, если а есть положительное целое число, то Ь-я 
цифра представления а в системе счисления К есть 

Ѵа/Я ь \ тоб К. 

На машинах, предназначенных для высокопроизводительных числовых вычисле- 
ний* эти вычисления могут выполняться для произвольного значения Я так же быс- 
тро, как и для случая Я = 2. 

Еще одна точка зрения призывает рассматривать ключи как числа в диапазоне от 
0 до 1, при этом подразумевается, что десятичная точка находится слева, как пока- 
зано на рис. 10.1. В этом случае Ь- ой цифрой числа а будет 

1 _аЯ ь \ тоб Я. 

Если мы работаем на машине, на которых можно эти операции выполнять эф- 
фективно, то мы можем использовать их в качестве основы для поразрядной сорти- 
ровки. Такая модель применяется в тех случаях, когда ключи имеют переменную дли- 
ну, например, в случае строк символов. 
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Таким образом, в оставшейся части главы мы будем рассматривать ключи как чис- 
ла в системе счисления с основанием Я (конкретное значение Я не указывается) и 
употреблять операцию сИ^іІ для доступа к отдельным цифрам ключей полагая, что мы 
сможем разработать быстродействующую программную реализацию операции (1і§й; для 
конкретных компьютеров. 

Определение 10.2. Ключ есть число в системе счисления с основанием Я , цифры ко- 
торого пронумерованы слева (начиная с 0). 

В свете только что рассмотренных примеров, для нас удобнее считать, что эта аб- 
стракция допускает эффективные реализации для множества приложений на большей 
части компьютеров, хотя мы должны соблюдать определенную осторожность, ибо 
конкретная реализация может быть эффективной только в рамках заданной про- 
граммной и аппаратной среды. 

Мы полагаем, что ключи достаточно длинные, так что операция извлечения из них 
битов имеет смысл. Если же ключи короткие, то мы можем применять метод подсчета 
индексных ключей, рассмотренных в главе 6. Напомним, что этот метод позволяет 
сортировать N ключей, представляющие собой целые числа, принимающие значения 
в диапазоне от 0 до Я — 1 за линейное время, используя для этой цели одну вспомо- 
гательную таблицу размером /? для расчетов и другую таблицу размером N для пере- 
упорядочения N записей. Следовательно, если мы можем себе позволить поддержку 
таблицы размером 2”, то сортировку поразрядных ключей легко выполнить за линей- 
ное время. В самом деле, расчеты, связанные подсчетом индексных ключей, лежат в 
основе базовых методов поразрядной сортировки М50 и Ь50. Поразрядная сорти- 
ровка вступает на передний план, когда ключи обладают достаточной длиной (ска- 
жем, ѵѵ = 64), когда использование таблицы размером Т* не является целесообразным. 

Упражнения 

>10.1. Сколько нужно цифр для представления 32-разрядного числа в системе счис- 
ления, основанием которой является 256? Опишите, как можно извлечь каждую 
цифру этого числа. Ответьте на этот вопрос для случая, когда основанием систе- 
мы счисления будет число 2 16 . 

>10.2. Для N = 10 3 , ІО 6 и ІО 9 дать наименьший размер байта, который позволит 
представить любое число в диапазоне от 0 до N в виде слова из 4 байтов. 

о 10.3. Перегрузить операцию орегаіог<, используя абстракцию йі^іі (чтобы, напри- 
мер, можно было выполнять эмпирические исследования, сравнивая алгоритмы из 
глав 6 и 9 с методами, описанными в данной главе, используя одни и те же дан- 
ные). 

о 10.4. Разработать и выполнить эксперимент, сравнивающий затраты ресурсов на 
извлечение цифр с использованием в одном случае операции сдвига и в другом 
случае — арифметических операций, реализованных на вашей машине. Сколько 
цифр вы можете извлечь за секунду, используя каждый из двух этих методов? Ука- 
зание: будьте осторожны, ваш компилятор может преобразовать арифметические 
операции в операции сдвига битов и наоборот. 
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• 10.5. Напишите программу, которая при заданном наборе произвольных десятич- 
ных чисел (К = 10), равномерно распределенных на интервале от 0 до 1, будет вы- 
числять количество операций сравнения чисел, необходимых для их сортировки в 
смысле рис. 10.1. Выполните эту программу для N = 10 3 , 10 4 , ІО 5 и ІО 6 . 

• 10.6. Выполнить упражнение 10.5 для Я = 2, используя 32-разрядные величины. 

• 10.7. Выполнить упражнение 10.5 для случае, когда числа подчиняются распреде- 
лению Гаусса. 

10.2. Двоичная быстрая сортировка 

Предположим, что мы можем переупорядочить записи в файле таким образом, что 
все те ключи, которые начинаются с бита 0, идут раньше всех тех, которые начина- 
ются с бита 1. Далее мы можем воспользоваться методом рекурсивной сортировки, 
который является одним из вариантов быстрой сортировки (см. главу 7): разбиение 
файла этим способом с последующей независимой сортировкой двух полученных под- 
файлов. Чтобы переупорядочить файл, выполните просмотр слева с целью обнаружить 
ключ, который начинается с бита 1, затем продолжайте просмотр справа с целью най- 
ти ключ, который начинается с бита 0, поменяйте ключи местами и продолжайте про- 
цесс до тех пор, пока указатели не пересекутся. Этом метод в литературе (включая и 
более ранние издания данной книги) часто называют поразрядной обменной сортиров- 
кой с тем, чтобы подчеркнуть, что это прежде всего простой вариант алгоритма, изоб- 
ретенного Хоаром, несмотря на то что он был открыт раньше быстрой сортировки 
{см. раздел ссылок). 

Программа 10.1 представляет полную реализацию этого метода. Применяемый в 
ней процесс разбиения по существу лишь немногим отличается от разбиения, реали- 
зованного в программе 7.2, за исключением того, что в рассматриваемом случае в 
качестве разделяющего элемента используется число 2 Ь , а не некоторый ключ из фай- 
ла. Поскольку числа 2 Ь может и не быть в файле, то нет гарантии того, что конкрет- 
ный элемент будет помещен в свою окончательную позицию в процессе разбиения. 
Рассматриваемый алгоритм отличается от алгоритма быстрой сортировки, поскольку 
рекурсивные вызовы выполняются для ключей, имеющим на 1 бит меньше. Это раз- 
личие существенно влияет на эффективность алгоритма. Например, если имеет ме- 
сто вырожденное разбиение файла из N элементов, то произойдет рекурсивный вы- 
зов для подфайла размером N для ключей, имеющим размер на 1 разряд меньше. 
Следовательно, число таких вызовов ограничено количеством разрядов в ключе. В 
противоположность этому, последовательное использование разделяющих значений, 
взятых не из самого файла в условиях стандартной быстрой сортировки может при- 
вести к возникновению бесконечного рекурсивного цикла. 

Как и в случае стандартной быстрой сортировки, возможны различные варианты 
реализации внутренних циклов. В программе проверка, не пересеклись ли значения 
указателей, включена в оба внутренних цикла. Такая проверка приводит к дополни- 
тельному обмену местами для случая, когда / = у, чего можно избежать путем приме- 
нения Ьгеак, что, собственно говоря, и сделано в программе 7.2, хотя в рассматрива- 
емом случае обмен элемента а[і] на самого себя вполне безобиден. Другой 
альтернативой является использование служебной метки. 
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Программа 10.1. Двоичная быстрая сортировка 

Эта программа производит разделение файла по старшим разрядам, после чего 
выполняет рекурсивную сортировку полученных подфайлов. Переменная сі фикси- 
рует анализируемый бит, начиная с 0 (крайний левый). Процесс разделение закан- 
чивается, когда \ становится равным і, т.е. когда все элементы справа от а[і] имеют 
1 в б-ѵ\ позиции, а все элементы слева от имеют 0 в сі- й позиции. Сам элемент а[і] 
имеет в д-\\ позиции 1, если только у всех ключей файла в позиции сі не стоит 0. 
Дополнительная проверка, выполняемая непосредственно по окончании цикла, ох- 
ватывает и этот случай. 


ѣетріаѣе <с 1 азз Іѣет> 

ѵоісі фдіскзогЫЗ (І-Ьет а[], іпі. 1, іпЪ г, іпѣ сі) 
{ іпі. і = 1 , 3 = г; 

(г <= 1 || сі > ЬіЪзѵогсі) гвіигп; 

ѵЫІе (з != і) 

{ 

ѵЫІв (сіідіі. (а [і] , сі) = 0 && (і < з)) і++; 
ѵгЬіІе (сііді1(а[з] , сі) = 1 && (^ > і) ) з — ; 
ехсЬ(а[і] , а [ з ] ) ; 

> 

іі: (сіідіі: (а [г] , сі) == 0 ) 3 ++; 

сцііскзогѣВ (а, 1, 3 - 1 , сі+1) ; 

фііскзог'ЬВ (а , ^ , г, сі+1) ; 

> 

'Ьетріаѣе Ссіазз 1 Ъет> 

ѵоісі зог 1 (І 1 ет а[], іпі. 1 , іггЬ г) 

{ диіскзогІЛ (а, 1 , г, 0 ); ) 


Рисунок 10.2 дает описание работы программы 
10.1 на примере простого учебного файла и сравни- 
вает ее с быстрой сортировкой, представленной на 
рис. 7.1. Этот рисунок показывает, каким является 
движение данных, но не объясняет, почему произво- 
дятся те или иные перемещения — это зависит от дво- 
ичного представления соответствующих ключей. Бо- 
лее подробное представление этого же примера дано 
на рис. 10.3. В рамках этого примера предполагается, 
что буквы кодируются 5-разрядными кодами, при 
этом для /-й буквы алфавита используется двоичное 
представление числа і. Подобное кодирование пред- 
ставляет собой упрощенную версию настоящих кодов 
символов, для которых используется большее число 
битов (7.8 и даже 16) с тем, чтобы охватить большее 
число символов (буквы верхнего и нижнего регист- 
ров, числа и специальные символы). 

Для ключей в виде полных слов, состоящих из про- 
извольных совокупностей битов, отправной точкой 
для программы 10.1 должны служить крайние левые 
биты слова или бит 0. В общем случае выбираемая ис- 
ходная точка напрямую зависит от приложения, от 
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РИСУНОК 10.2. ПРИМЕР 
ДВОИЧНОЙ БЫСТРОЙ 
СОРТИРОВКИ 

Разделение по старшему разряду 
еще не гарантирует того , что 
хотя бы одно значение станет 
на свое окончательное место , 
оно лишь обеспечивает, что все 
ключи с 0 в старших разрядах 
предшествуют ключам с 1 в 
старших разрядах. Мы можем 
сравнить эту диаграмму с рис. 

1. 1, иллюстрирующим быструю 
сортировку, хотя то, как 
выполняется метод разделения, 
совершенно непонятен, если для 
ключей не выбран двоичный 
метод представления. На рис. 
10.3 приводятся подробности, 
благодаря которым становится 
ясно, по каким позициям 
производится разделение. 
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количества битов в машинном слове, от представления целых чисел и отрицательных 
чисел в той или иной машине. Для однобуквенных 5-разрядных ключей на рис. 10.2 
и 10.3 отправной точкой на 32-разрядной машине должен быть бит 27. 

Этот пример обращает внимание на потенциальную проблему, возникающую при 
использовании двоичной быстрой сортировки в реальных ситуациях: вырожденные 
разделения (когда все ключи имеют одно и то же значение разряда, по которому про- 
изводится разделение) могут встречаться довольно часто. Такая ситуация при сорти- 
ровке малых чисел (старшие разряды принимают значение 0), таких как в рассмат- 
риваемых нами примерах, не является чем-то необычным. Эта же проблема 
возникает при использовании ключей, состоящих из символов: например, предполо- 
жим, что мы строим 32-разрядные ключи из четырех символов, каждый из которых 
представлен в стандартном 8-разрядном коде, объединяя их в единое целое. Тогда по- 
явление вырожденных разделений возможно в начальной позиции каждого символа, 
поскольку, например, все буквы нижнего регистра начинаются с одних и тех же би- 
тов для большинства кодов символов. Эта проблема является типовой по своим по- 
следствиям, с которыми приходится сталкиваться при сортировке кодированных дан- 
ных, подобные проблемы возникают и в других видах поразрядной сортировки. 
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РИСУНОК 10.3. ПРИМЕР ДВОИЧНОЙ БЫСТРОЙ СОРТИРОВКИ 
(ПОКАЗАНЫ ЗНАЧЕНИЯ РАЗРЯДОВ КЛЮЧЕЙ) 

Мы построили эту диаграмму на основании рис 10.2 путем перевода значений ключей в их двоичные 
коды и сжатия таблицы, что позволяет показать, как производятся сортировки независимых 
подфайлов, как если бы они выполнялись параллельно, при этом столбцы и ряды меняются местами. 
На первой стадии файл разбивается на подфайл, все ключи которого начинаются с 0, и на подфайл, 
все ключи которого начинаются с 1. Затем первый подфайл разбивается на подфайл, все ключи 
которого начинаются с 00 и на подфайл, все ключи которого начинаются с 01; независимо от этого 
процесса в некоторый другой момент времени второй подфайл разбивается на подфайл, все ключи 
которого начинаются с 10 и на подфайл, все ключи которого начинаются с 11. Этот процесс 
прекратится только тогда, когда все разряды будут исчерпаны (для дублированных ключей в 
рассматриваемом примере) или когда размер подфайла становится равным 1. 


Часть 3. Сортировка 


После того как выяснится, что один из ключей от- 
личается от всех остальных значением левого разря- 
да, никакие другие разряды больше не анализируются. 
Это свойство в одних ситуациях выступает как досто- 
инство, в других — как недостаток. Когда ключи 
представляют собой случайные совокупности битов, 
анализу подвергаются только 1§ N битов, что намно- 
го меньше числа битов в ключах. Этот факт рассмат- 
ривается в разделе 10.6, а также в упражнении 10.5 и 
рис. 10.1. Например, сортировка файла из 1000 запи- 
сей с произвольно организованными ключами может 
потребовать анализа всего лишь 10 или 11 битов каж- 
дого ключа (даже если такими ключами являются, ска- 
жем, 64-разрядные ключи). 

С другой стороны, все биты одинаковых ключей 
также проверяются. Поразрядная сортировка не спо- 
собна работать хорошо на файлах, которые содержат 
большое число дублированных ключей достаточно 
большой длины. Двоичная быстрая сортировка и 
стандартные методы работают достаточно быстро, 
если сортируемые ключи представляют собой наборы 
битов случайной природы (различие между ними оп- 
ределяются главным образом разницей стоимости 
операций извлечения битов и сравнения), но в то же 
время стандартный алгоритм быстрой сортировки 
легче настроить на обработку неслучайных совокуп- 
ностей ключей, а трехпутевая быстрая сортировка 
идеально подходит для случаев, когда преобладают 
дублированные ключи. 

Как и в случае быстрой сортировки, структуру раз- 
деления удобно описывать в виде бинарного дерева 
(аналогично тому, как она представлена на рис. 10.4): 
корень дерева соответствует подфайлу, подвергающе- 
муся сортировке, а два его поддерева — двум подфай- 
лам, полученным в результате выполнения разделе- 
ния. Мы, по крайней мере, знаем, что в результате 
выполнения стандартной быстрой сортировки одна из 
записей помещается в процессе разделения в свою 
окончательную позицию, следовательно, помещаем 
этот ключ в корневой узел; мы знаем также, что в ус- 
ловиях бинарной сортировки ключи попадают в свои 
окончательные позиции, только когда мы доходим до 
подфайлов размером 1, либо когда все разряды клю- 
ча исчерпаны; таким образом, мы помещаем эти клю- 
чи на нижний уровень дерева. Такая структура назы- 



РИСУНОК 10.4. ДЕРЕВО 
РАЗДЕЛЕНИЯ ДЛЯ ДВОИЧНОЙ 
БЫСТРОЙ СОРТИРОВКИ 

Это дерево описывает структуру 
разделения для двоичной быстрой 
сортировки, соответствующей 
рис. 10.2 и 10.3. Поскольку нет 
гарантии того, что какие-либо 
элементы займут свои 
окончательные позиции, ключи 
соответствуют внешним узлам 
дерева. Такая структура 
обладает следующим свойством: 
продвигаясь по пути от корня к 
конкретному ключу, принимая О 
за левую ветвь и I за правую 
ветвь, получаем значения 
старших разрядов этого ключа. 
Именно эти значения и 
отличают данный ключ от всех 
остальных во время сортировки. 
Маленькие черные квадраты 
представляют нулевые 
разделения (когда все ключи 
переходят на другую сторону, 
поскольку значения старших 
разрядов совпадают). В условиях 
рассматриваемого примера это 
может случиться только в 
окрестности нижнего уровня 
дерева, однако возможно и на 
более высоких уровнях: например, 
если I или X в число таких ключей 
не входили, то их узлы на 
чертеже будут заменены нулевым 
узлом. Обратите внимание на 
тот факт, что дублированные 
ключи (Ли Е) не могут быть 
разделены (сортировка поставит 
их в один подфайл только после 
исчерпания всех их битов). 
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вается бинарным деревом (Ігіе); свойства такого бинарного 
дерева подробно анализируются в главе 15. Например, одно из 
таких свойств, представляющих несомненный интерес, заклю- 
чается в том, что структура бинарного дерева полностью оп- 
ределяется значениями ключей, а не порядком их следования. 

Разделы, получаемые в процессе выполнения быстрой сор- 
тировки, зависят от двоичного представления и числа сортиру- 
емых элементов. Например, если файлы представляют собой 
случайные перестановки целых чисел, меньших 171 = 

1010101 Ь, то разделение по первому биту эквивалентно разби- 
ению по значению 128, так что получаем неравные подфайлы 
(один файл размером 128, а другой размером 43). Ключи на 
рис. 10.5 суть произвольные 8-разрядные значения, таким об- 
разом, этот эффект в рассматриваемом случае не имеет мес- 
та, однако он достоин того, чтобы на него обратить внимание 
сейчас, чтобы он не стал для неприятным сюрпризом, когда 
мы столкнемся с ним на практике. 

Мы можем внести усовершенствования в базовую рекур- 
сивную реализацию, представленную программой 10.1, за счет 
отказа от рекурсии и обработки подфайлов небольших разме- 
ров другим способом, как это делалось в случае стандартной 
быстрой сортировки в главе 7. 

Упражнения 

>10.8. Начертите дерево в стиле рис. 10.2, которое соответ- 
ствует процессу разделения в поразрядной быстрой сорти- 
ровке, для ключей ЕА8Ѵ(21ІЕ8ТІОІЧ. 

10.9. Сравните число операций обмена местами, использу- 
емых при двоичной быстрой сортировке с аналогичным 
показателем обычной быстрой сортировки для 3 -разрядных 
двоичных чисел 001, 011, 101, НО, 000, 001, 010, 111, ПО, 
010 . 

о 10.10. Почему сортировка меньшего из двух подфайлов 
первым менее важна в случае двоичной быстрой сортиров- 
ки, чем в случае обычной быстрой сортировки? 

о 10.11. Опишите, что произойдет на втором уровне разделе- 
ния (когда левый подфайл подвергается разделению и ког- 
да правый подфайл подвергается разделению), в случае 
применения двоичной быстрой сортировки для упорядоче- 
ния случайных перестановок неотрицательных целых чи- 
сел, меньших 171. 

10.12. Написать программу, которая на проходе, предше- 
ствующем процессу обработки, определяет число старших 
разрядов, на которых все ключи равны, затем вызывает 
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РИСУНОК 10.5. 
ДИНАМИЧЕСКИЕ 
ХАРАКТЕРИСТИКИ 
ДВОИЧНОЙ БЫСТРОЙ 
СОРТИРОВКИ НА 
КРУПНОМ ФАЙЛЕ 

Разбиения на части 
при двоичной быстрой 
сортировке менее 
чувствительны к 
порядку расположения 
ключи , чем в условиях 
стандартной быстрой 
сортировки. В 
рассматриваемом 
случае выполнение этой 
процедуры на двух 
различных 8-разрядный 
файлах с произвольной 
организацией приводят 
к практически 
идентичным профилям 
разделений. 
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процедуру двоичном оыстрои сортировки, которая 
модифицирована таким образом, что игнорирует 
эти разряды. Сравнить время выполнения вашей 
программы со временем выполнения стандартной 
реализации для N = ІО 3 , ІО 4 , ІО 5 и ІО 6 , когда в каче- 
стве входных данных используется 32-разрядные 
слова следующего формата: крайние правые 16 би- 
тов — это равномерно распределенные случайные 
значения, а все крайние левые 16 битов суть 0 за ис- 
ключением ситуаций, когда в позициях / проставля- 
ется 1, если имеется і единиц в правой половине. 

10.13. Внести изменения в двоичную быструю сор- 
тировку с целью непосредственного обнаружения 
ситуаций, когда все ключи равны. Сравните время 
выполнения вашей программы с аналогичным по- 
казателем для стандартной реализации при 
N ~ ІО 3 , ІО 4 , ІО 5 и ІО 6 для случая, когда входными 
данными служат данные, описанные в упражнении 
10 . 12 . 


10.3. Поразрядная сортировка 

Использование всего лишь 1 разряда при поразряд- 
ной быстрой сортировке заставляет нас рассматривать 
ключи как числа в двоичной системе счисления и рас- 
сматривать сначала наиболее значащие числа. Обобщая 
предположим, что мы хотим отсортировать числа, 
представленные в системе счисления по основанию Я, 
рассматривая в первую очередь наиболее значащие 
байты. Чтобы сделать это, необходимо разделить мас- 
сив по крайней мере на Я , а не на 2, различных 
частей. По традиции будем называть эти разделы кор- 
зинами или ведрами и будем представлять себе рассмат- 
риваемый алгоритм как группу из Я корзин, по одной 
на каждое возможное значение первой цифры, как 
показано на следующей диаграмме: 
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РИСУНОК 10.6. ДИНАМИЧЕСКИЕ 
ХАРАКТЕРИСТИКИ 
ПОРАЗРЯДНОЙ СОРТИРОВКИ 
М5Э 

Всего лишь одна стадия 
поразрядной сортировки М81 ) 
почти полностью решает задачу 
упорядочения , как показывает 
рассматриваемый пример файла 
произвольной организации, 
состоящий из 8-разрядных целых 
чисел. Первая стадия 
поразрядной сортировки М8Б 
по двум старшим разрядам 
(слева) делит исходный файл на 
четыре подфайла. На следующей 
стадии каждый такой подфайл 
делится на четыре подфайла. 
Поразрядная сортировка М8Б 
по трем старшим разрядам 
(справа) делит файл на восемь 
подфайлов за один проход , на 
котором также выполняются 
распределение и подсчет. На 
следующем уровне каждый из 
этих подфайлов снова 
разбивается на восемь частей, 
при этом в каждой такой части 
содержатся всего лишь 
несколько элементов. 
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Мы выполняем проход по всем ключам, распределяя их по 
корзинам, затем выполняем сортировку содержимого корзины 
по ключам с байтами, которые меньше исходных на 1. 

На рис. 10.6 показан пример поразрядной сортировки М80 
на произвольных перестановках целых чисел. В отличие от дво- 
ичной быстрой сортировки этот алгоритм может привести файл 
в относительный порядок достаточно быстро, даже после перво- 
го разделения, если значение основания системы счисления до- 
статочно велико. 

Как уже говорилось в разделе 10.2, одна из наиболее привле- 
кательных особенностей поразрядной сортировки обусловлена 
ее интуитивным и прямолинейным характером, позволяющим 
ее адаптироваться к сортирующим приложениям, в условиях ко- 
торых ключами являются символьные строки. Это ее свойство 
особенно ярко проявляется в С++ и других средах программи- 
рования, в которых обеспечена прямая поддержка обработки 
строк. В условиях поразрядной сортировки мы просто использу- 
ем основание системы счисления, соответствующее размеру бай- 
та. Чтобы извлечь цифру, мы загружаем байт, чтобы перемес- 
титься к следующей цифре, мы увеличиваем на единицу 
указатель строки. Сейчас мы рассматриваем строки фиксирован- 
ной длины, а немного погодя мы убедимся в том, что с ключа- 
ми в виде строк переменной длины легко работать, используя те 
же базовые механизмы. 

На рис. 10.7 показан пример поразрядной сортировки М8Э 
трехбуквенных слов. Для простоты изложения в условиях этого 
примера за основание системы счисления принимается значение 
26, хотя для большей части приложений мы выбираем с этой це- 
лью большее значение основания, в зависимости от того, как 
кодируются символы. Прежде всего, слова переупорядочивают- 
ся таким образом, что те из них, которые начинаются с симво- 
ла а, идут раньше слов, начинающихся с буквы Ь, и т.д. Затем 
слова, начинающиеся с буквы а, подвергаются рекурсивной сор- 
тировке, далее производится сортировка слов, начинающихся с 
буквы Ь, и т.д. Как показывает пример, большая часть работы, 
связанной с сортировкой, приходится на разделения по первой 
букве, полученные после первого разделения подфайлы имеют 
небольшие размеры. 

Как мы уже убедились на примере быстрой сортировки в гла- 
вах 7 и разделе 10.2, а также при ознакомлении с сортировкой 
слиянием в главе 8, можно повысить эффективность большин- 
ства рекурсивных программ за счет использования простых ал- 
горитмов для сортировки небольших по размерам файлов. Воп- 
рос использования других методов для сортировки файлов 
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РИСУНОК 10.7. 
ПРИМЕР 
ПОРАЗРЯДНОЙ 
СОРТИРОВКИ МБР 

Мы распределяем 
множество слов по 
26 корзинам 
соответственно 
первой букве. Затем 
мы сортируем 
каждую корзину , 
применяя тот же 
метод, начиная со 
второй буквы. 
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небольших размеров (корзины, содержащие небольшое число элементов) имеет боль- 
шое значение для поразрядной сортировки, ибо их так много! Более того, мы можем 
настроить алгоритм соответствующим образом путем выбора значения Я , поскольку 
существует простая зависимость: если Я принимает чрезмерно большое значение, то 
большая часть стоимости сортировки приходится на инициализацию и проверку кор- 
зин, если наоборот, Я недостаточно велико, то метод не использует своих потенци- 
альных выгод, что достигается, если разделить исходный файл на максимально воз- 
можное число фрагментов. Мы вернемся к исследованию этих проблем в конце 
разделе 10.6. 

Чтобы реализовать поразрядную сортировку М8Э, необходимо обобщить методы 
разделения массивов, которые мы рассматривали при изучении реализаций быстрой 
сортировки в разделе 10.7. Эти методы, в основу которых положено перемещение 
указателей с противоположных концов массива навстречу друг другу, так что они 
встречаются где-то посередине, работают хорошо при необходимости получения двух 
или трех разделов, но не допускают немедленного обобщения. К счастью, метод под- 
счета индексных ключей , который рассматривался в главе 6 для целей сортировки фай- 
лов с ключами, принимающих значения в узком диапазоне, в рассматриваемом слу- 
чае подходит как нельзя лучше. При этом используются таблицы значений и 
вспомогательные массивы, на первом проходе массива подсчитывается количество 
повторений каждой цифры старшего разряда. Эти значения показывают, где окажутся 
точки разделения. Затем, на втором проходе массива мы используем эти значения для 
перемещения элементов в соответствующие позиции вспомогательного массива. 

Программа 10.2 реализует этот процесс. Ее рекурсивная структура обобщает струк- 
туру быстрой сортировки, так что мы снова оказываемся перед необходимостью ре- 
шать проблемы, которые рассматривались в разделе 7.3. Должны ли мы сохранять 
наибольший из подфайлов во избежание излишней глубины рекурсии? Скорее всего, 
нет, поскольку глубина рекурсии ограничивается длиной ключа. Должны ли мы при- 
менять для сортировки подфайлов небольшого размера- простые методы, такие как, 
например, сортировка простыми вставками? Конечно, поскольку существует огром- 
ное число таких методов. 

Чтобы выполнить разбиение, программа 10.2 использует вспомогательный массив, 
размер которого равен размеру файла, подлежащего сортировке. В качестве альтер- 
нативы мы можем воспользоваться обменным методом подсчета индексных ключей 
(см. упражнения 10.17 и 10.18). Мы должны уделить большое внимание использова- 
нию пространства памяти, поскольку рекурсивные обращения могут привести к чрез- 
мерному расходу памяти для локальных переменных. В программе 10.2 временный 
буфер для размещения ключей (аих) может быть глобальным, но массив, в котором 
хранятся число и местоположение позиций точек разделения (соипі) должны быть 
локальными. 

Дополнительное пространство памяти для вспомогательного массива не представ- 
ляют собой сколь-нибудь серьезной проблемы в условиях многочисленных приложе- 
ний поразрядной сортировки применительно к длинным ключам или записям, по- 
скольку для этих типов данных успешно применяется сортировка по указателю. 
Следовательно, дополнительное пространство памяти отводится для переупорядоче- 
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ни я указателей, и в силу этого обстоятельства оно мало по сравнению с простран- 
ством, занимаемом самими ключами и записями (тем не менее, им не следует пре- 
небрегать). Если памяти достаточно и главной заботой является обеспечение нужно- 
го быстродействия (обычная ситуация, характерная для использования поразрядной 
сортировки), можно также сэкономить время, затрачиваемое на копирование этого 
массива, путем рекурсивных операции переключения тех или иных параметров, как 
это делалось в рамках сортировки слиянием в разделе 8.4. 

В случае ключей произвольной природы, количество ключей в каждой корзине 
(размеры подфайлов) после первого прохода в среднем составляет N/Я. На практи- 
ке ключи могут не быть произвольными (например, когда ключи представлены в 
виде строк, представляющих слова на английском языке, мы знаем, что лишь немно- 
гие из них начинаются с буквы х и совсем нет слов, которые начинались бы с букв 
хх), так что много корзин окажутся пустыми, а многие из непустых корзин будут со- 
держать больше ключей, чем остальные (см. рис. 10.8). Несмотря на такое положение 
дел, процесс многопутевого разбиения в общем случае будет эффективным примени- 
тельно к делению крупных сортируемых файлов на множество подфайлов меньших 
размеров. 

Программа 10.2. Поразрядная сортировка М5Р 

Мы разрабатывали эту программу, взяв за основу программу 8.17 (сортировка с 
подсчетом индексных ключей) путем замены ссылок на ключи на ссылки на цифры 
в ключах и добавления цикла на завершающей части программы, в котором выпол- 
няются рекурсивные вызовы каждого подфайла ключей, начиная с той же цифры. 

Для ключей переменной длины, оканчивающихся цифрой 0 (что характерно для 
строк в стиле С) первый оператор 11 и первый рекурсивный вызов пропускаются. 
Полученная реализация использует вспомогательный массив (аих), который доста- 
точно велик, чтобы хранить копию входного файла. 

#<іе!?іпе Ьіп (А) 1+соипѣ[А] 
ѣѳхпріаѣе <с 1 авз Іѣет> 

ѵоісі гасііхМЗО (Іѣет а[] , іпѣ 1, ііѵЬ г, іпѣ сі) 

{ іпѣ і, 3 , соипѣ[К+ 1 ] ; 
зѣаѣіс Іѣѳт аих[тахИ] ; 
і.± (<і > Ъуѣезѵогсі) геѣигп; 

±± (г-1 <= М) { іпзег-Ьіоп (а, 1, г); геѣигп; } 

і:ог ^ = 0; з < К; 3++) соипѣЕз] = 0; 

^ог (і = 1 ; і <= г; і++) 

соипѣ [сіідіѣ (а [і] , сі) + 1 ]++; 

±ог (з = 1; з < К; з++) 
соип 1 :[з] += соип-Ь[з- 1 ] ; 

±оі (і = 1 ; і <= г; і++) 

аих [І+соипѣ [сИдіѣ (а [і] , сі)]++] = а[і] ; 

Ног (і = 1; і <= г; і++) а[і] = аих[і]; 
гасііхМЗО(а, 1, Ъіп(0)-1, сі+1) ; 

^ог (з = 0 ; з < К- 1 ; з++) 

гасііхМ5Ц(а, Ъіп(з), Ъіп(з+1)-1, сі+1); 

} 


Другой естественный путь реализации поразрядной сортировки М8Э предполагает 
использование связных списков. Для каждой корзины предусматривается один связ- 
ный список: на первом проходе по сортируемым элементам мы вставляем элемент в 
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соответствующий связный список, определяемый цифрой старшего разряда. Далее мы 
сортируем подсписки, после чего объединяем все эти связные списки в единое целое. 
Такой подход выливается в достаточно трудную задачу программирования (см. упраж- 
нение 10.36). Соединение связных списков требует отслеживания начала и конца каж- 
дого из этих списков, и, естественно, многие из них вполне могут оказаться пусты- 
ми. 

Чтобы добиться высокой производительности конкретного приложения, исполь- 
зующего поразрядную сортировку, следует ограничить число пустых корзин за счет 
выбора соответствующего значения как основания системы счисления, так и значе- 
ния, в соответствии с которым отсекаются подфайлы небольших размеров. В качестве 
конкретного примера предположим, что требуется отсортировать 2 16 (что-то около 
шестнадцати миллионов) 64-разрядных чисел. Чтобы поддерживать таблицу числа 
повторов, намного меньшую по размерам, чем размер файла, мы можем выбрать 
основание Я — 2 16 , для чего требуется проверка значений 16 разрядов, составляющих 
ключи. Но после первого разделения средний размер файла составит всего лишь 2 8 , 
и выбранное основание системы счисления для таких небольших файлов становится 
слишком большим. Положение усугубляет еще и то обстоятельство, что таких файлов 
может быть очень много: порядка 2 16 в рассматриваемом случае. Для каждого из этих 
2 16 файлов процедура сортировки устанавливает значения 2 16 счетчиков равными 0, 
затем проверяет, что около 2 8 из них принимают ненулевые значения и так далее, что 
достигается ценой выполнения по меньшей мере 2 32 арифметических операций. Про- 
грамма 10.2, которая реализована на основании предположения, что большая часть 
корзин не пуста, выполняет достаточно большое число арифметических операций для 
каждой пустой корзины (например, она выполняет рекурсивные вызовы для всех 
пустых корзин), так что для рассматриваемого примера время выполнения окажет- 
ся очень большим. Соответствующим основанием для второго уровня может быть 2 8 
или 2 4 . Короче говоря, вполне очевидно, что мы не должны использовать большие 
основания систем счисления в условиях поразрядной сортировки М8И файлов не- 
больших размеров. Подробно мы рассмотрим этот вопрос в разделе 10.6, когда зай- 
мемся исследованием характеристик различных методов. 

Если мы положим Я = 256 и откажемся от рекурсивного вызова для корзины 0, то 
программа 10.2 становится эффективным методом сортировки строк в стиле С. Если 
нам также известно, что длина всех строк не превышает некоторой фиксированной 
длины, мы можем ввести специальную переменную Ьуіез^огё, фиксирующую эту дли- 
ну и присвоить ей соответствующее значение, либо отказаться от проверки по пере- 
менной Ъуіез^ѵогсі и выполнять сортировку символьных строк переменной длины. Для 
сортировки строк мы обычно будем выполнять реализацию абстрактной операции 
СІІ§І* в виде единственной ссылки на массив, согласно изложенному в разделе 10.1. 
Путем соответствующего подбора значений основания Я и величины Ьуіе$>ѵоіч1 (с про- 
веркой по этим значениям) легко можно модифицировать программу 10.2 таким об- 
разом, чтобы она могла работать со строками символов из нестандартных алфавитов 
или нестандартных форматов с соблюдением ограничений по длине и других согла- 
шений. 
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Сортировка строк лишний раз показывает, насколько 
важным является правильное обращение с пустыми корзина- 
ми. На рис. 10.8 показан процесс деления для примера, по- 
добного представленному на рис. 10.7, но только для слов, 
состоящих из двух букв, и явно заданных пустых корзин. В 
рамках этого примера мы сортируем двухбуквенные слова 
методом поразрядной сортировки, используя в качестве ос- 
нования системы счисления число 26, так что на каждой ста- 
дии сортировки имеется 26 корзин. На первой стадии число 
пустых корзин невелико, однако на второй стадии пустые 
корзины преобладают. 

Функция поразрядной сортировки М50 выполняет раз- 
деление файла но первой цифре ключей, затем рекурсивно 
вызывает сама себя для обработки подфайлов, соответству- 
ющих каждому значению. На рис. 10.9 представлена структу- 
ра этих рекурсивных вызовов для примера применения по- 
разрядной сортировки М5Ш, показанного на рис. 10.8. 
Структура вызова соответствует многопутевому бинарному де- 
реву, прямому обобщению древовидной структуры для двоич- 
ной быстрой сортировки, показанной на рис. 10.4. Каждый 
узел соответствует рекурсивному вызову сортировки М80 
для некоторого подфайла. Например, поддерево корня с 
корнем, помеченном буквой о, соответствует сортировке 
подфайла, состоящего из трех ключей оГ, оп и ог. 

Из этих рисунков легко видеть, что в процессе сортиров- 
ки строк методом М50 (сначала по старшей цифре) появля- 
ется значительное число пустых корзин. В разделе 10.4 мы 
рассмотрим способы решения этой проблемы; в главе 15 мы 
будем изучать явно заданные бинарные древовидные струк- 
туры, используемые в приложениях, ориентированных на 
обработку строк. В общем случае мы будем работать с ком- 
пактными представлениями древовидных структур, которые 
не содержат узлов, соответствующих пустым корзинам и в 
которых метки сдвинуты с ребер на нижние ухш. Подобное 
имеет место на рис. 10.10, изображающем структуру, соот- 
ветствующую рекурсивной структуре вызовов (при этом иг- 
норируются пустые корзины), на примере сортировки 
множества трехбуквенных слов методом поразрядной сорти- 
ровки М50 из рис. 10.7. Например, поддерево корня с вер- 
шиной, помеченной буквой ], соответствует сортировке кор- 
зины, содержащей четыре ключа: іаш, іау, }оі и }оу. Подробно 
мы рассмотрим свойства таких деревьев в главе 15. 

Основная трудность получения максимальной эффектив- 
ности поразрядной сбртировки М80 ключей, представлен- 
ных в виде длинных строк, в практических условиях обуслов- 
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РИСУНОК 10.8. ПРИМЕР 
ПОРАЗРЯДНОЙ 
СОРТИРОВКИ М5Р (С 
ПУСТЫМИ КОРЗИНАМИ) 

Уже на второй стадии 
сортировки файлов 
небольших размеров 
встречается избыточное 
число пустых корзин. 
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РИСУНОК 10.9. РЕКУРСИВНАЯ СТРУКТУРА ПОРАЗРЯДНОЙ СОРТИРОВКИ М5й 

Это дерево соответствует действию рекурсивной поразрядной сортировки МЕО, реализованной в 
программе 10.2, на примере упорядочения совокупности двухбуквенных слов методом поразрядной 
сортировки М$П, представленного на рис. 10.8. Если файл принимает размер 0 или 1, рекурсивные 
вызовы отсутствуют. В остальных случаях имеет место 26 вызовов: один на каждое возможное 
значение текущего байта. 

лена низким уровнем фактора случайности сортируемых данных. В типичном случае 
такие строки содержат большие промежутки одних и тех же данных или ненужных 
данных, либо некоторые их части принимают значения из узкого диапазона. Напри- 
мер, приложение, выполняющее обработку записей, содержащих данные о студентах, 
могут иметь дело с ключами, поля которых соответствую году окончания школы (че- 
тыре байта, отличающиеся друг от друга только в одном байте), название штата (мак- 
симум 10 байтов, принимающее одно из 50 возможных значений) и пол (1 байт, при- 
нимающий одно из двух возможных значений), а также поле фамилии студента (в 
большей степени, чем предыдущие, соответствует случайной строке, но в то же вре- 
мя соблюдаются некоторые закономерности: в общем случае оно не бывает корот- 
ким, буквы не подчиняются равномерному распределению, имеет место большое чис- 
ло замыкающих пробелов в поле фиксированной длины). Все эти ограничения 
приводят к образованию пустых корзин в процессе поразрядной сортировки М80 (см. 
упражнение 10.23). 

Один из практических способов решения этой проблемы заключается в разработ- 
ке более сложной реализации абстрактной операции доступа к конкретным байтам, 
которая учитывает любые специальные знания о сортируемых строках. Другим ме- 
тодом, который достаточно просто реализуется и который называется эвристика в 
масштабах корзины (Ъіп-зрап-ЬеигізІісз) заключается в том, что запоминаются началь- 
ные и конечные значения диапазонов значений непустых корзин на стадии подсче- 
та, а затем используются только корзины, попадающие в полученный диапазон (воз- 
можно, с учетом некоторых специальных случаев, таких как специальные значения 
ключей, например, 0 или пробел). Такое усовершенствование весьма привлекатель- 
но для ситуаций типа описанных в предыдущем параграфе. Например, в случае ал- 
фавитно-цифровых данных, принимая в качестве основания системы счисления число 
256, мы можем работать с числами в одном разделе ключей и в результате получить 
только 10 непустых корзин, соответствующих цифрам, в то же время мы можем ра- 
ботать с буквами верхнего регистра в другом разделе ключей и при этом иметь 26 
непустых корзин, соответствующих этим буквам. 

Имеются различные альтернативы, которые мы можем попытаться использовать 
для расширения метода эвристики в масштабах корзины {см. раздел справок). Напри- 
мер, можно использовать дополнительную структуру данных для хранения сведений 
о непустых корзинах, поддерживать только счетчики и общаться к ним в рекурсив- 
ном режиме. Однако реализации такого подхода (и даже применения эвристики в 
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РИСУНОК 10.10. РЕКУРСИВНАЯ СТРУКТУРА ПОРАЗРЯДНОЙ СОРТИРОВКИ М5Р 
(ПУСТЫЕ ФАЙЛЫ ИГНОРИРУЮТСЯ) 


Предлагаемое представление рекурсивной структуры поразрядной сортировки МЗй более компактно , 
чем представление на рис. 10.9. Каждый узел этого дерева помечен значением ( і -1)-й цифры 
конкретного ключа, где і — это расстояние от узла до корня. Каждый путь от корня до нижнего 
уровня дерева соответствует конкретному ключу; если теперь соединить метки узлов в одно слово , 
получим соответствующий ключ. Данное дерево соответствует представленному на 10.7 примеру 
поразрядной сортировки МЗВ слов из трех букв. 


масштабе корзины) более чем достаточно для подобного рода ситуаций, поскольку 
экономия средств в этом случае незначительна, если основание не есть очень боль- 
шое число или если размер файла невелик, в этом случае следует применять меньшее 
основание либо сортировать файл с использованием другого метода. Мы можем до- 
стичь такой же экономии ресурсов, какую получаем за счет выбора соответствующего 
основания или переключения на использование специальных методов для обработки 
файлов небольших размеров, однако это не просто сделать. В разделе 10.4 мы рас- 
смотрим еще одну версию быстрой сортировки, посредством которой изящно реша- 
ется проблема пустых корзин. 

Упражнения 

>10.14. Начертить компактную древовидную структуру (пустые корзины отсутству- 
ют, ключи узлов такие же, как и на рис. 10.10), соответствующую рис. 10.9. 

>10.15. Сколько узлов содержит полное дерево, соответствующее рис. 10.10? 

>10.16. Покажите, как выполняется разбиение набора ключей шпѵ і§ Ше ііте Гог аіі 
§оо(і реоріе го соте ІЬе аіё оГ ІЬеіг рагіу при поразрядной сортировке М80. 

• 10.17. Написать программу, которая выполняет четырех путевое обменное разде- 
ление путем подсчета частоты повторения каждого ключа подобно тому, как это 
делается в условиях сортировки методом подсчета индексных ключей, с последу- 
ющим использованием метода, подобного реализованному в программе 6.14 для 
перемещения ключей. 

••10.18. Написать программу, которая решает задачу /^-путевого разделения в об- 
щем виде, используя метод, описанный в общих чертах в упражнении 10.17. 

10.19. Написать программу, генерирующую произвольные 80-байтные ключи, пос- 
ле чего сортирует их методом поразрядной сортировки М8Э для УѴ = 10 3 , 10 4 , ІО 5 
и ІО 6 . Снабдите программу инструментальными средствами для распечатки общего 
количества байтов, проверенных в процессе каждой сортировки. 

о 10.20. Каким может быть крайнее правое положение байта ключа, к которому по 
вашему предположению обратится программа из упражнения 10.19 во время дос- 
тупа для каждого заданного значения 7Ѵ ? Если вы успешно справились с этим уп- 
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ражнением, снабдите программу инструментальными средствами, позволяющими 
отслеживать эти значения, и сравните результаты теоретических расчетов с ре- 
зультатами, полученными опытным путем. 

10 . 21 . Написать программу генератора ключей, которая порождает ключи путем 
перетасовки 80-байтной случайной последовательности. Воспользуйтесь получен- 
ным генератором для генерирования N произвольных ключей, затем выполните 
их упорядочение методом поразрядной сортировки М8Б для N = ІО 3 , 10 4 , ІО 5 и ІО 6 . 
Сравните достигнутую производительность с аналогичным результатом для про- 
извольного случая (см. упражнение 10.19). 

10 . 22 . Каким может быть крайнее правое положение байта ключа, к которому по 
вашему предположению обратится программа из упражнения 10.19 во время дос- 
тупа к каждому из N заданных значений? Если вы выполнили это упражнение, 
сравните теоретические расчеты с эмпирическими результатами, полученными при 
выполнении вашей программы. 

10 . 23 . Написать программу генератора ключей, которая порождает случайные 30- 
байтные ключи, состоящие из трех полей: поле размером в четыре байта, содер- 
жащее одну из 10 заданных строк, поле размером 10 байтов, содержащее одну из 
50 заданных строк, однобайтное поле с одним из двух возможных значений, и 
поле размером 15 байтов, содержащее выровненную слева строку случайных сим- 
волов, которая с равной вероятностью может содержать от четырех до 15 симво- 
лов. Используйте полученный генератор ключей для генерации 7Ѵ случайных клю- 
чей, затем выполните их упорядочение методом поразрядной сортировки М80 для 
N = ІО 3 , ІО 4 , 10 5 и ІО 6 . Снабдите программу инструментальными средствами для 
распечатки общего количества байтов, проверенных в процессе сортировки. Срав- 
ните достигнутую производительность с аналогичным результатом для произволь- 
ного случая (см. упражнение 10.19). 

10 . 24 . Внесите в программу такие изменения, чтобы стала возможной реализация 
эвристики в масштабах корзины. Проверьте, как работает программа на данных 
из упражнения 10.23. 

10.4. Трехпутевая поразрядная быстрая сортировка 

Еще одна возможность приспособить быструю сортировку для поразрядной сор- 
тировки М8Э заключается в использовании трехпутевого разделения ключей по стар- 
шим байтам, переходя к следующему байту только в среднем подфайле (в котором 
содержатся ключи, старшие байты которых равны старшему байту разделяющего эле- 
мента). Реализация этого метода не представляет трудностей (по существу, достаточ- 
но описания из одного предложения плюс код из программы 7.5, обеспечивающий 
трехпутевое разделение), а сам метод легко адаптируется к различным ситуациям. 
Программа 10.3 содержит полную реализацию этого метода. 

По существу, выполнение такой трехпутевой поразрядной быстрой сортировки 
равносильно сортировке файла по старшим разрядам ключей (с использованием ме- 
тода быстрой сортировки) с последующим применением в режиме рекурсии этого же 
метода к остальной части ключей. При сортировки строк этот метод выглядит пред- 
почтительнее в сравнении с обычной быстрой сортировкой и поразрядной сортиров- 
кой М80. Разумеется, его можно рассматривать как гибрид двух указанных алгорит- 


мов. 
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Сравнивая трехпутевую поразрядную быструю сортиров- 
ку со стандартной поразрядной сортировкой М80 мы можем 
отметить, что она разбивает файл всего лишь на три части, 
так что она не использует всех преимуществ быстрого мно- 
гопутевого разбиения, особенно на ранних стадиях сортиров- 
ки. С другой стороны, на поздних стадиях поразрядной сор- 
тировки М80 появляется множество пустых корзин, но в то 
же время поразрядная быстрая сортировка хорошо приспо- 
соблена для случаев дублированных ключей, ключей, прини- 
мающих значения в узких диапазонах, файлов небольших 
размеров и многих других случаев, в условиях которых по- 
разрядная сортировка М80 выполняется медленно. Особо 
важное значение приобретает то обстоятельство, что подоб- 
ного рода разбиение хорошо подходит для случаев проявле- 
ния различного рода закономерностей в разных частях клю- 
ча. Более того, для нее не нужны никакие вспомогательные 
файлы. В противовес всем этим достоинствам можно поста- 
вить тот факт, что требуются дополнительные операции об- 
мена, чтобы реализовать многопутевое разбиение с помо- 
щью трехпутевого разбиения, когда число подфайлов велико. 

На рис. 10.11 приводится пример применения этого мето- 
да для сортировки совокупности трехбуквенных слов, пред- 
ставленных на рис. 10.7. Рисунок 10.12 отражает структуру 
рекурсивных вызовов. Каждый узел соответствует в точнос- 
ти трем рекурсивным вызовам: но ключам с меньшим значе- 
нием первого байта (левый потомок), по ключам с тем же 
значением первого байта (средний потомок) и по ключам с 
большим значением первого байта (правый потомок). 

Когда сортируемые ключи соответствуют абстракции из 
раздела 10.2, стандартную быструю сортировку (а также все 
другие методы сортировки, рассмотренные в главах 6—9) 
можно рассматривать как поразрядную сортировку М8Э, 
поскольку функция сравнения осуществляет доступ сначала 
к наиболее значащей части ключа (см. упражнение 10.3). 
Например, если в качестве ключей выступают строки, фун- 
кция сравнения должна осуществлять доступ только к стар- 
шим байтам, если они попарно различаются, и к двум байтам, 
если первые байты совпадают, а вторые байты различны, и 
т.д. Таким образом, стандартный алгоритм автоматически 
затрачивает некоторую часть выигрыша в производительно- 
сти, в погоне за которой мы используем поразрядную сорти- 
ровку М80 (см. раздел 7.7). Существенное различие 
заключается в том, что стандартный алгоритм не может 
предпринять никаких действий, когда старшие байты равны. 
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РИСУНОК 10.11. 

ТРЕХПУТЕВАЯ 

ПОРАЗРЯДНАЯ 

БЫСТРАЯ 

СОРТИРОВКА 

Мы делим файл на три 
части: слова , 
начинающиеся с букв 
от а до і, слова, 
начинающиеся с буквы 
І, и слова, 

начинающиеся с букв 
от к до г. Затем мы 
выполняем сортировку 
в рекурсивном режиме. 


Часть 3 . Сортировка 


Действительно, программу 10.3 можно рассматривать как способ метода быстрой сор- 
тировки запоминать все, что ему стало известно о старших цифрах элементов после 
их использования в процедуре разделения файла на несколько частей. В малых фай- 
лах, для которых большая часть операций сравнения была выполнена в процессе сор- 
тировки, существует большая вероятность того, что многие старшие байты совпада- 
ют. Стандартный алгоритм обязан просмотреть все эти байты в рамках каждой 
операции сравнения, в то время как трехпутевой алгоритм не делает этого. 


Программа 10.3. Трехпутевая поразрядная быстрая сортировка 


Программный код поразрядной сортировки МЗО фактически мало чем отличается 
от программного кода быстрой сортировки с трехпутевым разбиением (программа 
9.5), отличия состоят в следующем: (/) ссылки на ключи становятся ссылками на кон- 
кретные байты ключей, (//) текущий байт добавляется как параметр к рекурсивной 
служебной программе и (///) рекурсивные вызовы для среднего подфайла переме- 
щаются к следующему байту. Мы избегаем выполнять перемещения за пределы кон- 
цов строк путем проверки, равно ли разделяющее значение 0, перед рекурсивны- 
ми обращениями, которые обеспечивают переход к следующим байтам. Когда 
разделяющим значением является 0, левый подфайл пуст, средний подфайл соот- 
ветствует ключам, которые, по определению программы, равны этому значению, а 
правый подфайл соответствует более длинным строкам, которые требуют дальней- 
шей обработки. 


#<іе^іпе сЪ (А) сіідіЬ(А, <і) 

ЬетрІаЬе Ссіазз І1ѳт> 

ѵоісі фііскзогЪХ (ІЬѳт а[] , іпЬ 1, іпЬ г, іп-Ь сі) 

{ 

іпЬ і, 3, к, р, іпЪ ѵ; 

іі: (г -1 <= М) { іпзегѣіоп (а, 1 , г); геЬигп; } 
ѵ * сЬ(а[г]); і = 1-1; з * г; р * 1-1; я * г; 
ѵЫІе (і < з) 

{ 

ѵЬііѳ (сЬ(а[++і]) < ѵ) ; 

игііііѳ (ѵ < сЬ{а[ — 3])) <3 ш = 1 ) Ьгѳак; 

±± (і > з) Ьгѳак; 
ехсЬ(а[±] , а [ з ] ) ; 

±± (сЬ(а[і] )=ѵ) { р++ ; ѳхсЬ(а[р], а[і]); } 

іі: (ѵ*=сЬ(а[з] ) ) { ^ — ; ехсЬ(а[з], а [я]); } 

> 

(р == ф 

( (ѵ != И \0 И ) фііскзогЪХ (а, 1, г, сі+і) ; 

гѳЬигп ; } 

±± (сЬ(а[і]) < ѵ) і++; 

±ог (к = 1 ; к <= р; к++, з — ) ѳхсЬ(а[к], а[з]); 
±ог (к = г; к >= <і; к--, і++) ѳхсЬ(а[к] , а[і]); 
диіскзогЬХ(а, 1 , з , <і) ; 

±± ( (і = г) && (сЬ(а[і]) " ѵ) ) і++; 

(ѵ != ”\ 0 ") фііскзогЪХСа, 3+1, і- 1 , сі+і) ; 
дихскзогЬХ (а, 1, г, <і) ; 
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РИСУНОК 10.12. РЕКУРСИВНАЯ СТРУКТУРА ТРЕХПУТЕВОЙ ПОРАЗРЯДНОЙ БЫСТРОЙ СОРТИРОВКИ 

Представленная на диаграмме комбинация двоичного и троичного деревьев соответствует 
подстановке 26-путевых узлов в двоичное дерево, изображенное на рис. 10. 10, троичных деревьев 
поиска, как показано на рис. 10. 13. Любой путь от корня на нижний уровень дерева, который 
оканчивается средней связью, определяет ключ файла, задаваемый символами, охваченными средними 
связями на этом пути. В диаграмме, показанной на рис. 10. 10, имеется 1035 пустых связей, которые 
не отображены на ней, что касается рассматриваемой диаграммы, то все 155 пустых связей, 
которыми обладает это дерево, на диаграмме показаны. Каждая пустая связь соответствует 
пустой корзине, так что это различие показывает, как трехпутевой разбиение может существенно 
сократить число пустых корзин, которые появляются во время поразрядной сортировки МЗВ. 


Рассмотрим случай, когда ключи имеют большую длину (для простоты предполо- 
жим, что длина ключей фиксирована) и в то же время по большей части старшие бай- 
ты одинаковы. В подобного рода ситуациях время выполнения обычной быстрой сор- 
тировки пропорционально длине слова, помноженной на 2ЛПпУѴ, тогда как время 
выполнения ее поразрядной версии пропорционально N, умноженному на длину сло- 
ва (чтобы обнаружить все равные между собой старшие байты) плюс 2 УѴІпТѴ (затрачи- 
вается на сортировку более коротких ключей). Иначе говоря, этот метод работает в 
ІпУѴ раз быстрее, чем обычная быстрая сортировка, если принимать во внимание 
только стоимость операций сравнения. Для ключей, используемых в сортировочных 
приложениях на практике, характеристики, подобные полученным в условиях рас- 
смотренного выше искусственного примера, не являются чем-то необычным (см. 
упражнение 10.25). 

Другим интересным свойством трехпутевой поразрядной быстрой сортировки яв- 
ляется то, что ее характеристики напрямую не зависят от значения основания систе- 
мы счисления. Для других методов сортировки, использующих основание системы 
счисления, нужно заводить и поддерживать вспомогательный массив, индексирован- 
ный по значению основания системы счисления. Также следует позаботиться о том, 
чтобы размер этого массива ненамного превосходил размер самого файла. Для это- 
го метода нет такой таблицы. Если в качестве основания брать исключительно боль- 
шое значение (больше длины слова), то рассматриваемый метод превращается в 
обычную быструю сортировку, а если в качестве основания взять число 2, то он вы- 
рождается в обычную двоичную быструю сортировку, и только промежуточные зна- 
чения основания системы счисления позволяют эффективно преодолевать равные 
промежутки между фрагментами ключей. 
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РИСУНОК 10.13. ПРИМЕР УЗЛОВ ДЕРЕВА ТРЕХПУТЕВОЙ ПОРАЗРЯДНОЙ БЫСТРОЙ СОРТИРОВКИ. 

Трехпутевая поразрядная быстрая сортировка подходит к решению проблемы пустых корзин, 
характерной для поразрядной сортировки МЗВ, с применением трехпутевого разбиения, чтобы 
устранить значение одного байта и (в рекурсивном режиме) работать с другими. Это действие 
соответствует замене каждого узла на пути вдоль средних связей по дереву, которое описывает 
рекурсивную структуру вызовов поразрядной сортировки МЗВ (см. рис. 10.9) на троичное дерево, в 
котором каждой непустой корзине соответствует внутренний узел . Для полных узлов (слева) такое 
изменение требует затрат времени и не влечет за собой заметной экономии пространства памяти, в 
то время как в случае пустых узлов (справа), затраты времени минимальны, а экономия памяти 
значительная. 

Мы можем разработать гибридный метод, пригодный для многих практических 
приложений, обладающий превосходными характеристиками, применяя стандартную 
поразрядную сортировку М80 для упорядочения крупных файлов, чтобы воспользо- 
ваться преимуществами многопутевого разбиения, и трехпутевую поразрядную сор- 
тировку с небольшим значением основания системы счисления для небольших фай- 
лов, чтобы избежать отрицательных эффектов, обусловленных наличием большого 
числа пустых корзин. 

Трехпутевая быстрая сортировка успешно применяется и в тех случаях, когда сор- 
тируемыми ключами являются векторы (как в математическом смысле, так и в смысле 
стандартной библиотеки шаблонов С++. Другими словами, если ключи составлены из 
независимых компонентов (каждый компонент сам по себе независимый ключ), мы 
имеем возможность переупорядочить записи таким образом, что они будут распола- 
гаться в порядке следования первых компонентов ключей и в порядке следования 
вторых компонентов ключей в тех случаях, когда равны их первые компоненты и т.д. 
Мы можем рассматривать сортировку векторов как обобщенный вид поразрядной 
сортировки, где К может быть произвольно большим. После выполнения настройки 
программы 10.3 на это приложение, мы будем называть ее многомерной быстрой сор- 
тировкой (тиШкеу диіскъоіі) . 

Упражнения 

10.25. Для й> 4 предположим, что ключи состоят из й байтов, при этом заключи- 
тельные 4 байта принимают случайные значения, а все остальные равны 0. Дай- 
те оценку количеству просмотренных байтов при сортировке посредством мето- 
дов трехпутевой поразрядной быстрой сортировки (Программа 10.3) и стандартной 
быстрой сортировки (Программа 7.1) файла размером N для больших /V, и вычис- 
лите для обоих случаев отношение значений времени выполнения сортировки. 
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10.26. Эмпирически определите размер байта, для которого время выполнения 
трехпутевой сортировки 64-разрядных ключей минимально, при N = 10 3 , 10 4 , ІО 5 
и ІО 6 . 


• 10.27. Разработать реализацию трехпутевой поразрядной сортировки для связных 
списков. 


10.28. Разработать реализацию многопутевой поразрядной сортировки для случая, 
когда ключи представлены в виде векторов из і чисел с плавающей точкой, используя 
проверку чисел с плавающей точкой на равенство, описанную в упражнении 4.6. 


10.29. Используя генератор ключей, описанный в упражнении 10.19, выполнить 
трехпутевую поразрядную быструю сортировку для N = 10 3 , 

10 4 , ІО 5 и ІО 6 . Сравнить ее производительность с аналогичным 


показателем для поразрядной сортировки М8Б. 

10.30. Используя генератор ключей, описанный в упражнении 
10.21, выполнить трехпутевую поразрядную быструю сортиров- 
ку для N = ІО 3 , 10 4 , 10 5 и 10 6 . Сравнить ее производительность 
с аналогичным показателем для поразрядной сортировки М8Э. 

10.31. Используя генератор ключей, описанный в упражнении 
10.23, выполнить трехпугевую поразрядную быструю сортиров- 
ку для N = ІО 3 , ІО 4 , ІО 3 и ІО 6 . Сравнить ее производительность 
с аналогичным показателем для поразрядной сортировки М8Э. 

10.5. Поразрядная сортировка 1.50 

Метод, альтернативный поразрядной сортировке, предусмат- 
ривает просмотр байтов в направлении справа налево. На рис. 
10.14 показано, как задача сортировки трехбуквенных слов мо- 
жет быть решена за три прохода по файлу. Мы сначала сортиру- 
ем файл по последней букве (используя для этой цели метод под- 
счета индексных ключей), затем по средней букве, и только 
потом — по первой букве. 

На первых порах не так то просто поверить, что этот метод 
работает; и в самом деле, он вообще не работает, если исполь- 
зуемый метод сортировки неустойчив (см. определение 6.1). Пос- 
ле того, как установлена важность свойства устойчивости, не- 
трудно дать формулировку доказательства того, что поразрядная 
сортировка Ь8П работает: мы знаем, что после упорядочения 
ключей по / замыкающим байтам (при сохранении устойчивости) 
любые два ключа в файле появляются в нужном порядке (в со- 
ответствии с просмотренными на текущий момент разрядами) 
либо благодаря тому, что первые из / замыкающих байтов отлич- 
ны друг от друга, в подобном случае сортировка по этому бай- 
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РИСУНОК 10.14. 
ПРИМЕР 
ПОРАЗРЯДНОЙ 
СОРТИРОВКИ ЬБР 

Трехбуквенные слова 


ту расставила их в соответствующем порядке, или если первые из 
/ замыкающих байтов совпадают, они уже упорядочены нужным 
образом в силу свойства устойчивости. Можно дать этому другую 
формулировку: если ѵѵ — / еще не просмотренных байтов какой- 


упорядочиваются за 
три прохода (слева 
направо) методом 
поразрядной 
сортировки Ь50 
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либо пары ключей идентичны, то любое различие между этими ключами определяется 
і байтами, которые уже просмотрены, и если эти ключи должным образом упорядо- 
чены, то они сохраняют этот порядок в силу свойства устойчивости. С другой сторо- 
ны, если и> — / еще не просмотренных байтов различны, то те / байтов, которые уже 
просмотрены, не играют никакой роли, так что следующий проход должным образом 
упорядочит эту пару, учитывая различия в более значащих байтах. 

Требование устойчивости означает, например, что метод разделения, использован- 
ный в двоичной быстрой сортировке, не может быть использован в двоичной версии 
рассматриваемого метода сортировки справа налево. С другой стороны, метод сор- 
тировки с подсчетом индексных ключей является устойчивым методом сортировки, 
что сразу же приводит нас к классическому и эффективному алгоритму. Программа 
10.4 представляет собой реализацию этого метода. По-видимому, понадобится вспо- 
могательный массив для целей распределения — методы, которые используются в 
упражнениях 10.17 и 10.18, выполняющие распределение без использования дополни- 
тельной памяти, жертвуют устойчивостью в пользу отказа от дополнительного масси- 
ва. 

Метод поразрядной сортировки использовался в старых машинах для сортировки 
перфокарт для вычислительных машин. Такие, машины обладали способностью рас- 
пределения колоды карт по 10 корзинам в соответствии видом отверстий, пробитых 
в специальных столбцах. Если в некотором наборе столбцов пробиты определенные 
числа, оператор может сортировать перфокарты, пропуская их через машину по край- 
ней правой цифре, затем собрав и упорядочив колоды перфокарт, полученные на 
выходе, снова пропустить их через машину, на сей раз по цифре, следующей за край- 
ней правой, и т.д. Физическая сортировка перфокарт представляет собой устойчивый 
процесс, который можно смоделировать сортировкой методом подсчета индексных 
ключей. Эта версия поразрядной сортировки ЬЗЭ не только широко использовалась 
в коммерческих приложениях в пятидесятых и шестидесятых годах прошлого столе- 
тия, этим методом пользовались многие осторожные программисты, которые проби- 
вали некоторые последовательности чисел в нескольких концевых колонках колоды 
перфокарт, на которых набита программа, чтобы можно было восстановить порядок 
следования перфокарт в колоде механическим способом, если колода случайно рас- 
сыплется. 

Программа 10.4. Метод поразрядной сортировки 1,$Р 

Данная программа реализует сортировку байтов в словах методом подсчета индек- 
сных ключей, продвигаясь слева направо. Реализация сортировки методом подсчета 
индексных ключей должна быть устойчивой. Если В равна 2 (благодаря чему 
Ьуіезѵѵогсі и Ьііѵѵогсіз идентичны), данная программа является прямой поразрядной 
сортировкой — с проходом справа налево, с поразрядным просмотром (см. рис. 
10.15). 

ѣетріаѣе Ссіазз Іѣет> 

ѵоісі гасііхІіЗО (Іѣет а[] , ±пѣ 1, іпТ. г) 

{ з'Ьа'Ьіс І'Ьет аих[тахЫ] ; 

і:ог (іпѣ сі = ЬуЬвзѵогсі-1 ; сі >= 0; сі--) 

{ 


іп*Ь і, з, ссшп , Ь[К+1] ; 

і:ог (з = 0 ; 3 < К; 3++) соип'ЬСз] 


0 ; 



Глава 10. Поразрядная сортировка 


427 


Ног (і = 1; і <= г; і++) 

соипі [йідіѣ (а [і] , <і) + 1]++; 

±от (і = 1; з < К; }++) 
соип“Ь[Л += соип^Сз-І] ; 

Ног (і = 1; і <= г; і++) 

аих[соипѣ[сііді1(а[і] / <і)]++] = а[і]; 

Ног (і = 1; і <= г; і++) а[і] = аих[і] ; 

} 

} 


Рисунок 15 иллюстрирует работу двоичной поразрядной сортировки Ь80 на услов- 
ном примере упорядочения ключей, благодаря чему становится возможным сравне- 
ние с рис. 10.3. Для рассматриваемых 5-разрядных ключей полное упорядочение до- 
стигается за пять проходов по ключам справа налево. Сортировка записей с 
одноразрядным ключом сводится к разбиению файла таким образом, что все записи 
с ключом 0 следуют раньше всех записей с ключом 1. Как только что было показа- 
но, мы не можем пользоваться стратегией разбиения, которую мы в рассматривали 
в начале данной главы при обсуждении программы 10.1, несмотря на то, что она по 
всем признакам решает ту же проблему, в силу того, что она не устойчива. Имеет 
смысл рассмотреть поразрядную сортировку с основанием системы счисления, рав- 
ным 2, поскольку во многих случаях ее удобно реализовать на высокопроизводитель- 
ных машинах и в аппаратном обеспечении специального назначения (см. упражне- 
ние 10.38). В программах мы используем максимально возможное число разрядов с 
тем, чтобы уменьшить число проходов, которое ограничено только размерами мас- 
сива рассматриваемых чисел (см. рис. 10.16). 



В 

§| 

0 

0 

§ 

0 

т 

|| 

щ 

1 

р 

0 

N 

щ 

1 

1 

1 

0 

X 

.1 

1 

о 

0 

п 

р 

II 

и 

0 

0 

о 

1 

0 

II 

л 

'0 

0 

А 

о 


о 

о 

1 

8 

І| 

0 

0 

1 

1 

О 

0 

§§ 

1 

1 

1 

1 

Щ 

і 

р 

о 

1 

О 

Ш 

0 

і 

1 

1 

Е 

:о 

Ж 

1 

0 

1 

А 

ц 

0 

о 

0 

1 

М 

в 

в 

і; 

0 

И 

Е 

0 

0 

щ 

0 

і 


т 

ц 

о 

1 

0 

X 

II 

1 

0 

0 

р 

1 

0 

і 

о 

•г 

і. 

о 

і 

1 

.л . 

іи 

А 

0 

і 

0 

0 

1 

0 

1 

0 

Л 

. ѵ 

Е 

0 

0 

І 

0 

А 

0 

0 

;о 

К) 

V 

М 

0 

1 

;і 

0 

Е 

-р 

0 

:Д 

0 

В 

1 

;0 

0 

1 

N 

.0 

1 

1 

.1 

8 

III 

0 

0 

1 

О 

0 

г 

1 

1 

(э 

о 

0 

Я 

1 



X 

Р 

А 

I 

А 

В 

8 

Т 

I 

Е 

М 

Е 

N 

О 

Ѳ 


. & т 

.V. 

и 

л 

и 

А, 

и 

Р 

і 

0 

1 0 

о 

о 

п 

V 

А 

0 

0 

0 0 

0 

0 1 

А 

" 3 

0 

0 1 

и 

и 

1 

В 

І 

0 

0 0 

п 

0 

1 

8 

Я 

и 

1 0 

»■» 

и 

1 

0 

Т 

§ 

/■ч 

< » 

10 

■». 

и 

1 

і 

Е 

Я 

о 

1 0 

1 

п 

»*> 

п 

«ѵ* 

Е 

0 

и 

0 1 

1 

0 

0 

С 

0 

<ч 

< і 

0 0 

1 

0 

1 

X 

Л 

1 

О 1 

И 

0 

1 

1 

0 

1 

О 0 

1 

0 

1 


0 

1 

;0Р 

1 

1 

0 

м 

0 

1 

0 1 

1 

1 

1 

N 

0 

1 

0 0 

1 

1 

1 

0 

0 

1 


о о о 

О О 1 
О О 1 
О 1 о 

0 1 1 

1 о о 

1 0 1 
1 0 1 
1 1 1 

о о о 

0 0 1 

1 о о 

1 0 1 
1 1 о 
1 1 1 


А 

А 

Е 

Е 

С 

I 

м 

N 

О 

Р 

В 

8 

Т 

X 


о 

о 

о 

о 

о 

о 

о 

о 

0 

1 
1 
1 
1 

1 


О 0 0 1 
О О 0 1 

0 10 1 

0 1 0 1 

0 111 

1 О 0 1 

1 1 о о 
110 1 
1110 
1111 

о о о о 
0 0 1 о 
0 0 1 1 

0 1 о о 

1 о о о 


РИСУНОК 10.15. ПОРАЗРЯДНАЯ (ДВОИЧНАЯ) СОРТИРОВКА 1.50 (ПОКАЗАНЫ РАЗРЯДЫ КЛЮЧЕЙ) 


Данная диаграмма служит иллюстрацией использования поразрядной сортировки справа налево, 
разряд за разрядом , применительно к рассматривавшемуся выше файлу учебному ключей. Мы 
вычисляем і-й столбец из (/ — 1 )-го столбца файла, извлекая (не нарушая при этом свойства 
устойчивости) все ключи с 0 в і-м разряде, а затем все ключи с 1 в і-м разряде. Если перед операцией 
извлечения ( / — \ )-й столбец был упорядочен по і — 1 замыкающим разрядам ключей, то и і-й столбец 
будет упорядочен по і замыкающим разрядам ключей по окончании этой операции. Перемещение 
ключей на третьей стадии пояснений не требует. 
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Применение подхода Ь50 к сортировке строковых 
данных обычно сопряжено с некоторыми трудностями, 
что в первую очередь объясняется переменной длиной 
ключей. В случае сортировок М50 достаточно просто от- 
личать один ключ от другого по их старшим байтам, од- 
нако в основе сортировок лежит принцип постоянной 
длины ключа, при этом ведущие ключи используются 
только на заключительных проходах. По всей видимости, 
даже в случае ключей (большой) фиксированной длины, 
поразрядная сортировка Ь50 выполняет бесполезную ра- 
боту на правой стороне ключей, ибо, как мы смогли убе- 
диться выше, в процессе сортировки обычно использует- 
ся только левая часть каждого ключа. В разделе 10.6 мы 
найдем способ решения этой проблемы после того, как 
подробно изучим свойства поразрядной сортировки. 

Упражнения 

10.32. Используя генератор ключей из упражнения 

10.19 выполнить поразрядную сортировку для 

N = 10 3 , ІО 4 , ІО 5 и ІО 6 . Выполнить сравнение показате- 
лей этой сортировки с параметрами поразрядной сор- 
тировкой м$о. 

10.33. Используя генератор ключей из упражнения 
10.21 и 10.23 выполнить поразрядную сортировку 

для N ~ 10 3 , ІО 4 , ІО 5 и ІО 6 . Выполнить сравнение пока- 
зателей этой сортировки с параметрами поразрядной 
сортировкой М50. 

10.34. Представить (неотсортированный) результат 
попытки применения поразрядной сортировки, в ос- 
нову которой положен метод разбиения, используе- 
мый в методе двоичной быстрой сортировки, для при- 
мера, представленного на рис. 10. 15. 

>10.35. Представить результаты использования пораз- 
рядной сортировки для упорядочения по двум 

первым символам совокупности ключей жт і§ іНе ііте 
Гог аіі §оос1 реоріе Іо соте ІНе аМ оГ іЬеіг рагіу. 

• 10.36. Разработать реализацию поразрядной сортиров- 
ки Ь8Э, используя связные списки. 

• 10.37. Найти эффективный метод, который (/) пере- 
упорядочивает записи* файла таким образом, что те их 
них, ключи которых начинаются с бита 0, идут рань- 
ше тех записей, ключи которых начинаются с бита 1, 
(//) использует дополнительное пространство памяти, 
пропорциональное квадратному корню из числа запи- 
сей (или меньше того) и (/77) является устойчивым. 



РИСУНОК 10.16. 
ДИНАМИЧЕСКИЕ 
ХАРАКТЕРИСТИКИ 
ПОРАЗРЯДНОЙ 
СОРТИРОВКИ 1.50 

На диаграмме показаны 
этапы поразрядной 
сортировки ІЗВ 8- 
разрядных ключей, 
принимающих случайные 
значения, с основанием 2 
(слева) и 4, последняя 
заключает в себе все другие 
этапы, представленные на 
диаграмме для основания 2 
(справа). Например, когда 
остаются два разряда 
( второй этап с конца в левой 
диаграмме, предпоследний в 
правой диаграмме) 
рассматриваемый файл 
состоит из четырех взаимно 
проникающих 
отсортированных 
подфайлов, состоящих из 
ключей, начинающихся с 00, 
01, 10 и 11. 
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• 10.38. Разработать программу, которая сортирует массив 32-разраядных слов, ис- 
пользуя всего лишь одну следующую абстрактную операцию: задано положение 
разряда і и указатель на массив а[к]; упорядочить а[к], а[к+1], а[к+63] посред- 

ством устойчивого метода таким образом, что слова с битом 0 в положении рас- 
полагаются раньше слов с битом 1 в позиции і. 

10.6. Рабочие характеристики 

поразрядных сортировок 

Время выполнения поразрядной сортировки ЕЗИ при сортировке записей N с клю- 
чами, состоящими из ѵѵ байтов, пропорционально Мѵ, поскольку соответствующий 
алгоритм производит \ѵ проходов по всем N ключам. Как показывает рис.10.17, это 
свойство не зависит от природы входных данных. 

Для случая длинных ключей и коротких байтов это время сопоставимо с М§УѴ: на- 
пример, если мы используем двоичную поразрядную сортировку ЫЗЭ для сортиров- 
ки 1 миллиарда 32 разрядных ключей, то как >ѵ, так и 1§7Ѵ примерно равны 32. Для 
более коротких ключей и более длинных байтов время выполнения сортировки сопо- 
ставимо с № например, если по отношению к 64-разрядным ключам используется 16- 
разрядное основание системы счисления, то и> принимает значение 4, что можно счи- 
тать константой малого значения. 

Чтобы должным образом выполнить сравнение рабочих характеристик поразряд- 
ной сортировки с характеристиками алгоритмов, построенных на основе операции 
сравнения, мы долее подробно должны проанализировать каждый байт ключей, а не 
ограничиваться только учетом числа ключей. 

Лемма 10.1. В худшем случае поразрядная сортировка выполняет проверку всех байтов 
и всех ключей. 

Другими словами, различные виды поразрядной сортировки суть линейные сорти- 
ровки в том смысле, что затрачиваемое на нее время в большинстве случаев про- 
порционально количеству цифр во входных данных. Этот факт непосредственно 
следует из анализа программ: ни одна из цифр не проверяется дважды. Из всех 
программ, которые мы проверили, худший случай имел место, когда все ключи 
обладали одними и теми же значениями. 

Как мы могли убедиться выше, в случае ключей, принимающих случайные значе- 
ния, равно как и в во многих других случаях, время выполнения поразрядной сор- 
тировки М80 может быть сублинейным по отношению к общему числу битов данных, 
поскольку не во всех ситуациях можно выполнять полный просмотр конкретного 
ключа. Для ключей произвольной длины справедливо следующее утверждение: 

Лемма 10.2. Двоичная быстрая сортировка в среднем производит проверку N 1§УѴ раз- 
рядов при сортировке ключей , состоящих их битов, принимающих случайное значение. 

Если размер файла выражается степенью 2, а составляющие его биты принимают 
случайные значения, то естественно предположить, что одна половина старших 
битов принимает значение 0, а другая половина — значение 1, так что рекуррен- 
тное соотношение Сц — 2 С#/ 2 + дописывает возникшую ситуацию, как мы уста- 
новили при обсуждении свойств быстрой сортировки в главе 7. 
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РИСУНОК 10.17. ДИНАМИЧЕСКИЕ ХАРАКТЕРИСТИКИ ПОРАЗРЯДНОЙ СОРТИРОВКИ І.5Р ДЛЯ 
РАЗЛИЧНЫХ ВИДАХ ФАЙЛОВ 

Представленные диаграммы служат иллюстрацией этапов поразрядной сортировки для файлов с 
произвольной организацией , файлов с распределением Гаусса , почти отсортированных файлов , почти 
отсортированных в обратном порядке файлов , файлов с произвольной организацией , обладающих 10 
различными ключами (слева направо). Длина каждого файла равна 200. Время выполнения не зависит 
от исходного порядка входных данных. Три файла , обладающих одним и тем же набором ключей 
( первый , третий и четвертый файлы представляют собой перестановки целых чисел от 1 до 200) 
имеют одни и те же рабочие характеристики на завершающих этапах сортировки. 
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Опять-таки, это описание ситуации не достаточно точно, поскольку точка разде- 
ления приходится на центр только в среднем (поскольку число бит в ключе конеч- 
но). Тем не менее, для двоичной быстрой сортировки вероятность того, что раз- 
деляющая точка находится в окрестности центра, выше, чем для стандартного 
метода быстрой сортировки, так что старший член выражения, определяющего 
время выполнения сортировки, тот же, что и для случая, когда разделение идеаль- 
но. Подробный анализ, доказывающий этот результат, представляет собой класси- 
ческий пример анализа алгоритмов, впервые выполненный Кнутом в 1973 г. (см. 
раздел ссылок). 

Этот результат обобщается путем его применения к поразрядной сортировке МЗО. 
Тем не менее, поскольку основной интерес для нас представляет время выполнения 
сортировки, а не символы просматриваемых ключей, мы должны проявлять осторож- 
ность, поскольку время выполнения поразрядной сортировки пропорционально ве- 
личине основания системы счисления К и не имеет ничего общего с ключами. 

Лемма 10.3. Поразрядная сортировка МЗИ с основанием системы счисления Я приме- 
нительно к файлу размера N требует для выполнения по меньшей мере 2УѴ + 2 Я шагов. 

Поразрядная сортировка М5Ю требует выполнения по меньшей мере одного про- 
хода сортировки методом подсчета индексных ключей, а подсчет индексных клю- 
чей предусматривает по меньшей мере два прохода по записям (один для подсче- 
та, другой для распределения), на что затрачивается по меньшей мере 2УѴ шагов, 
еще два подхода предназначены для просмотра счетчиков (один для их инициали- 
зации в 0 в начале, другой — для проверки, находятся ли подфайлы в конце), на 
что уходит по меньшей мере еще 2 Я шагов. 

Доказательство наличия этого свойства практически тривиально, в то же время 
оно играет весьма важную роль в нашем понимании поразрядной сортировки М50. 
В частности, оно говорит нам, что мы не можем утверждать, что время выполнения 
сортировки будет меньше в силу того, что N мало, поскольку Я может быть намно- 
го больше, чем N. Короче говоря, для сортировки файлов небольших размеров следует 
использовать другие методы. Этот вывод может служить решением проблемы пустых 
корзин, которую мы обсуждали в конце раздела 10.3. Например, если Я равно 256, а 
N равно 2, то поразрядная сортировка М5Ю будет в 128 раз медленнее, чем более 
простой метод, предусматривающий только сравнение элементов. Рекурсивная струк- 
тура поразрядной сортировки М5Ю приводит к тому, что соответствующая рекурсив- 
ная программа будет многократно вызывать себя для большого числа файлов неболь- 
ших размеров. Поэтому в условиях рассматриваемого примера игнорирование 
проблемы пустых корзин может привести к тому, что вся поразрядная сортировка 
замедлится в 128 раз по сравнению с тем, какой она может быть. Что касается про- 
межуточных ситуаций (например, предположим, что Я равно 256, а N равно 64), то 
стоимость не будет настолько катастрофичной, тем не менее весьма существенной. 
Использование сортировки вставками — не слишком удачный выбор, ибо стоимость 
7Ѵ 2 /4 сравнений все еще недопустимо высока; не следует игнорировать проблему пу- 
стых корзин в силу того факта, что их очень много. Простейший путь решения этой 
проблемы состоит в использовании основания системы счисления, которая меньше 
размера сортируемого файла. 
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Лемма 10.4. Если основание системы счисления всегда меньше размера файла , то в худ- 
шем случае число шагов , выполняемых поразрядной сортировкой М50 , учитывается по- 
стоянным множителем небольшой величины при Іо §д7Ѵ (для ключей , содержащих случай- 
ные байты) и постоянным множителем небольшой величины при числе байтов в ключе. 

Полученный для худшего случая результат вытекает непосредственно из предыду- 
щих рассуждений, и анализ, выполненный для леммы 2, служит обобщением, по- 
зволяющим получить оценку для среднего случая. Для большого Я множитель 
1о§/гУѴ принимает малое значение, так что для практических применений можно 
считать, что общее время пропорционально N. Например, если Я — 216, то Іо^УѴ 
меньше 3 для всех N < 2 48 , при этом можно с уверенностью утверждать, что это 
число охватывает все возможные на практике размеры файлов. 

Как и в случае леммы 2, на основании леммы 4 мы можем сделать важный для 
практических приложений вывод о том, что поразрядная сортировка М8Э фактически 
является сублинейной функцией от общего числа разрядов в случайных ключах дос- 
таточно большой длины. Например, при сортировке 1 миллиона 64-разрядных слу- 
чайных ключей потребуется проверка от 20 до 30 старших разрядов ключей, что со- 
ставляет менее половины всех данных. 

Лемма 10.5. Трехпутевая поразрядная быстрая сортировка выполняет в среднем 
2N 1о§/Ѵ операций сравнения байтов при сортировке N ключей (произвольной длины). 

Возможны два поучительных толкования этого результата. Во-первых, если счи- 
тать рассматриваемый метод эквивалентным разбиению по старшему разряду, 
применяемому в рамках быстрой сортировки, то (рекурсивно) используя этот ме- 
тод применительно к подфайлам, нас не должен удивлять тот факт, что общее чис- 
ло операций примерно такое же, как и в случае нормальной быстрой сортиров- 
ки, но все это — операции сравнения единичных байтов, а не сравнения ключей 
в полном объеме. Во вторых, рассматривая этот метод под углом зрения рис. 10.13, 
мы вправе ожидать, что по лемме 3 время выполнения 1о§ л N должно быть помно- 
жено на 2 ІпЯ, поскольку требуется 2Я\пЯ шагов быстрой сортировки, чтобы от- 
сортировать Я байтов, в отличие от шагов для тех же байтов в случае бинарного 
дерева. Полное доказательство мы опускаем (см. раздел ссылок). 

Лемма 10.6. Поразрядная сортировка ЕЕ О может сортировать N записей с ѵѵ -разряд- 
ными ключами за и> / 1§/? проходов , при этом используется дополнительное простран- 
ство памяти для Я счетчиков (и буфер для переупорядочения файла). 

Доказательство этого факта непосредственно вытекает из реализации. В частно- 
сти, если мы примем Я = 2 н/4 , мы получим четырехпроходную линейную сортиров- 
ку. 

Упражнения 

10.39. Предположим, что входной файл состоит из 1000 копий каждого числа от 1 
до 1000, каждое представлено в виде 32-разрядного слова. Покажите, как вы вос- 
пользуетесь этими сведениями, чтобы получить быстрый вариант поразрядной сор- 
тировки. 
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10 . 40 . Предположим, что входной файл состоит из 1000 копий каждого из тысячи 
различный 32-разрядных чисел. Покажите как вы воспользуетесь этими сведени- 
ями, чтобы получить быстрый вариант поразрядной сортировки. 

10 . 41 . Каким является общее число байтов, проверяемых в процессе трехпутевой 
поразрядной быстрой сортировки при сортировке строк байтов фиксированной 
длины в худшем случае? 

10 . 42 . Эмпирически сравнить число байтов, проверяемых в процессе трехпутевой 
поразрядной быстрой сортировки длинных строк для N = ІО 3 , ІО 4 , ІО 5 и ІО 6 , при 
этом число выполняемых операций сравнений должно быть таким же, как и в слу- 
чае стандартной быстрой сортировки для тех же файлов. 

о 10 . 43 . Найти количество байтов, просматриваемых в процессе выполнения пораз- 
рядной сортировки МЗЭ и трехпутевой поразрядной быстрой сортировки для фай- 
ла с N ключами А, АА, ААА, АААА, ААААА, ... 

10.7. Сортировки с сублинейным временем 

выполнения 

Основной вывод, который можно сделать по результатам анализа, проведенного 
в разделе 10.6, состоит в том, что время выполнения поразрядной сортировки может 
находиться в линейной зависимости от общего количества информации, заключенной 
в ключах. В данном разделе мы проанализируем практическое значение этого фак- 
та. 

Реализация поразрядной сортировки Ь$0, представленная в разделе 10.5, выпол- 
няет Ъуіе§^ѵогсІ проходов по файлу. Увеличивая Я, мы получаем эффективный метод 
сортировки для достаточно больших N при наличии дополнительного пространства 
памяти для размещения Я счетчиков. Как отмечалось при доказательстве леммы 10.5, 
целесообразно выбирать Я таким, чтобы значение 1п Я (число разрядов в байте) было 
примерно равно одной четвертой от размера слова, так чтобы поразрядная сортиров- 
ка представляла собой четыре прохода сортировки методом подсчета индексных клю- 
чей. Проверяется каждый бит каждого ключа. Этот пример является прямой аналоги- 
ей организационной архитектуры многих компьютеров: в одной из типичных 
организаций используется 32-разрядное слово, которое, в свою очередь, состоит из 
8-разрядных байтов. Мы извлекаем из слов байты, а не биты, и этот подход позво- 
ляет достичь довольно высокой эффективности на многих типах компьютеров. Теперь 
каждый проход процедуры подсчета индексных ключей линеен, а поскольку их все- 
го лишь четыре, то и вся сортировка линейна — вряд ли можно надеяться на что-либо 
лучшее, когда речь идет о сортировке. 

В действительности дело обстоит так, что мы можем обойтись всего лишь двумя 
проходами процедуры подсчета индексных ключей. Мы сделаем это, воспользовав- 
шись тем фактом, что файл будет практически отсортирован, если используются толь- 
ко и>/2 старших разрядов поразрядных ключей. Как это имело место в случае быст- 
рой сортировки, можно эффективно завершить сортировку, выполнив после этого 
сортировку простыми вставками для всего файла. 
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Этот метод представляет собой тривиальную 
модификацию программы 10.4. Чтобы выпол- 
нить сортировку слава направо, воспользовав- 
шись для этой цели старшей половиной ключей, 
мы просто запускаем внешний цикл со значе- 
ния Ьуіеіѵогё/2-1, а не с Ъуіеіѵопі- 1 . Затем мы 
применяем метод сортировки простыми встав- 
ками к почти упорядоченному файлу, который 
к этому моменту получаем. Рисунки 10.3 и 10.18 
представляют собой убедительное доказатель- 
ство того, что файл, отсортированный по стар- 
шим разрядам, достаточно хорошо упорядочен. 
Сортировка методом вставки выполняет всего 
лишь шесть операций обмена для сортировки 
файла, изображенного в четвертом столбце ди- 
аграммы на рис. 10.3, а на рис. 10.18 показано, 
что достаточно большие файлы, отсортирован- 
ные только по старшей половине разрядов, мо- 
гут быть эффективно упорядочены простыми 
вставками. 

Для некоторых размеров файлов, возможно, 
имеет смысл использовать дополнительное про- 
странство памяти, которое в других случаях бу- 
дет отведено под вспомогательный массив, что- 
бы попытаться обойтись всего лишь одним 
проходом для подсчета индексных ключей, вы- 
полняя переупорядочение без использования 
дополнительной памяти. Например, сортировка 
1 миллиона 32-разрядных ключей, принимаю- 
щих случайные значения, может быть осуществ- 
лена за один проход сортировки методом под- 
счета индексных ключей на 20 старших разрядах 
и последующей сортировкой методом вставки. 
Чтобы выполнить эту процедуру, потребуется 
пространство памяти только для счетчиков 
(1 миллион) — значительно меньше, чем нужно 
для размещения вспомогательного массива. Ис- 
пользование этого метода равносильно исполь- 
зованию стандартной сортировки при Я = 2 20 , 
хотя очень важно, чтобы для файлов малых раз- 
меров применялись небольшие значения осно- 
вания (см. обсуждение леммы 10.4). 



РИСУНОК 10.18. ДИНАМИЧЕСКИЕ 
ХАРАКТЕРИСТИКИ ПОРАЗРЯДНОЙ 
СОРТИРОВКИ 1.50 НА РАЗРЯДАХ, 
ИСПОЛЬЗУЕМЫХ ПОРАЗРЯДНОЙ 
СОРТИРОВКОЙ М5Р 

Когда ключами служат биты , 
принимающие случайные значения, 
сортировка файла по старшим 
разрядам ключей устанавливает на 
файле порядок, близкий к искомому. 

На этой диаграмме сортировка Ь8Э с 
шестью проходами (слева) на файле со 
случайными 6-разрядными ключами 
сравнивается с трехпроходной 
поразрядной сортировкой, после 
которой может последовать еще один 
проход, на этот раз сортировки 
простыми вставками (справа). 
Последняя стратегия приводит к 
увеличению быстродействия примерно 
в два раза. 
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Подход применительно к поразрядной сортировке получил широкое распростра- 
нение в силу того, что он требует исключительно простых структур управления, а его 
базовые операции очень удобны для реализаций в машинном языке, который легко 
адаптируется к высокопроизводительным аппаратным средствам специального назна- 
чения. В такой среде наибольшее быстродействие, по-видимому, достигается при ис- 
пользовании полной поразрядной сортировки ЫШ. Если мы используем указатели, 
то чтобы воспользоваться поразрядной сортировкой ЫШ нам потребуется дополни- 
тельное пространство памяти для размещения N связей (и Я счетчиков), и эти затра- 
ты позволяют реализовать метод, который может сортировать файлы с произвольной 
организацией всего лишь за три-четыре прохода. 

В обычных средах программирования внутренний цикла программы, реализую- 
щей подсчет индексных ключей, который служит основой поразрядных сортировок, 
содержит намного большее число инструкций, чем внутренние циклы быстрой сор- 
тировки или сортировки слиянием. Из этого свойства программных реализаций сле- 
дует, что описанные выше сублинейные методы во многих случаях не могут, вопре- 
ки нашим ожиданиям, обладать таким же быстродействием как, скажем, быстрая 
сортировка. 

Алгоритмы общего назначения, такие как быстрая сортировка, нашли на практике 
более широкое применение, чем поразрядная сортировка, поскольку они могут адап- 
тироваться к более широкому диапазону приложений. Основная причина подобного 
положения дел заключается в том, что абстракция ключа, на которой построена по- 
разрядная сортировка обладает меньшей универсальностью, чем та, которая исполь- 
зовалась в главах 6—9. Например, один из широко распространенных способов уста- 
новления интерфейса со служебной программой сортировки заключается в том, чтобы 
клиент сам выбирал функцию сравнения. Таким интерфейсом является интерфейс, 
используемый программой чзог* из библиотеки программ на С++. Это программное 
средство не только годится в ситуации, когда клиент может воспользоваться специ- 
альными сведениями о сложных ключах с целью реализации быстрого сравнения, но 
также позволяет выполнять сортировку, используя отношения порядка, которые во- 
обще могут обходиться без ключей. Мы рассмотрим один такой алгоритм в главе 21. 

Когда какой-либо из них может быть использован, выбор между быстрой сорти- 
ровкой и различными алгоритмами поразрядной сортировки (и имеющие к ним от- 
ношение различные версии быстрой сортировки!) из числа тех, которые мы рассмат- 
ривали в данной главе, будет зависеть не только от свойств приложения (таких как 
ключи, размеры записи и файла), но также и от свойств среды программирования и 
аппаратных средств, от которых зависят эффективность доступа и использование от- 
дельных битов и байтов. В табл. 10.1 и 10.2 приводятся эмпирические результаты, сви- 
детельствующие в пользу вывода о том, что линейная или сублинейная зависимость 
рабочих характеристик, которые мы рассматривали применительно к различным при- 
ложениям поразрядной сортировки, делают эти методы сортировок привлекательны- 
ми для различных подходящих приложений. 
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Таблица 10.1. Эмпирический анализ поразрядных сортировок (ключи в виде целых чисел) 

Приводимые в таблице в относительных единицах временные показатели различ- 
ных поразрядных сортировок применительно к файлам с N 32-разрядных чисел про- 
извольной организацией (во всех применяется отсечение для N меньше 16 для пос- 
ледующей сортировки методом простой вставки) показывают, что поразрядные 
сортировки входят в число самых быстрых, если соблюдать осторожность при их ис- 
пользовании. Если мы используем огромное основание системы счисления для кро- 
шечных файлов, мы просто сводим на нет все преимущества поразрядной сорти- 
ровки МЗО, однако если мы выберем в качестве такого основания величину, 
которая меньше размера файла, то все ее достоинства восстанавливаются. Самый 
быстрый метод сортировки ключей в виде целых чисел является поразрядная сор- 
тировка, примененная к старшей половине ключей, быстродействие которого мы 
можем повысить еще больше, если уделим надлежащее внимание внутреннему цик- 
лу (см. упражнение 10.45). 


4-разрядные байты 8-разрядные байты 16-разрядные байты 


N 

О 

М 

1_ 

М 

1. 

1_* 

М 


М* 

12500 

2 

7 

11 

28 

4 

2 

52 

5 

8 

25000 

5 

14 

21 

29 

8 

4 

54 

8 

15 

50000 

10 

49 

43 

35 

18 

9 

58 

15 

39 

100000 

21 

77 

92 

47 

39 

18 

67 

30 

77 

200000 

49 

133 

185 

72 

81 

39 

296 

56 

98 

400000 

102 

278 

377 

581 

169 

88 

119398 

110 

297 

800000 

223 

919 

732 

6064 

328 

203 

1 532492 

219 

2309 


Обозначения: 

0 Быстрая сортировка, стандартная (программа 7.1) 

М Поразрядная сортировка, стандартная (программа 10.2) 

1 Поразрядная сортировка І_5Р (программа 10.4) 

М* Поразрядная сортировка М5Р, основание системы счисления 

адаптируется под размер файла 

1.* Поразрядная сортировка !_5Р на разрядах МЗЭ. 


Таблица 10.2. Эмпирические исследования поразрядных сортировок (строковые ключи) 

Приводимые в таблице в относительных единицах временные показатели различ- 
ных поразрядных сортировок первых слов N слов из книги Моби Дик (МоЬЬу Оіск) 
(все виды сортировок, за исключением пирамидальной сортировки, с отсечением 
при N меньше 16 для последующего выполнения сортировки простыми вставками) 
показывают, что подход "сначала МБР" эффективен применительно к строковым 
данным. Отсечение малых подфайлов менее эффективен в условиях трехпутевой 
поразрядной быстрой сортировки, чем другие методы, и совсем не эффективен, 
если не проводить модификацию сортировки методом вставки во избежание прохо- 
да через старшие разряды ключей (см. упражнение 10.46). 
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N 

О 

Т 

М 

Р 

В 

X 

X* 

12500 

7 

6 

9 

9 

8 

6 

5 

25000 

14 

12 

18 

19 

15 

11 

10 

50000 

34 

26 

39 

49 

34 

25 

24 

100000 

83 

61 

87 

114 

71 

57 

54 


Обозначения: 

О Быстрая сортировка, стандартная (программа 7.1) 

Т Быстрая сортировка с трехпутевым разбиением (программа 7.5) 

М Сортировка слиянием (программа 8.2) 

Р Пирамидальная сортировка с усовершенствованием Флойда (см. раздел 9.4) 
В Поразрядная сортировка МЗй (программа 10.2) 

X Трехпутевая поразрядная быстрая сортировка МЗй (программа 10.3) 

X* Трехпутевая поразрядная быстрая сортировка МЗй (с отсечениями) 


Упражнения 

[> 10 . 44 . Каким является основной недостаток выполнения на старших битах клю- 
чей с последующей подчисткой нарушений искомого порядка при помощи сорти- 
ровки простыми вставками? 

• 10 . 45 . Разработать программную реализацию поразрядной сортировки ЬЗЭ на 32- 
разрядных ключах с минимально возможным числом команд во внутреннем цик- 
ле. 

10 . 46 . Реализовать трехпутевую поразрядную быструю сортировку таким образом, 
чтобы сортировка методом вставок файлов небольших размеров не использовала 
старшие байты, о которых известно, что они равны. 

10 . 47 . Имея 1 миллион 32-разрядных ключей, найти такой размер байта, для ко- 
торого время выполнения сортировки будет минимальным в условиях, когда ис- 
пользуется метод, предусматривающий поразрядную сортировку Ь8Э по двум пер- 
вым байтам и последующую подчистку нарушений искомого порядка через 
сортировку простыми вставками. 

10 . 48 . Выполнить упражнение 10.47 для 1 миллиарда 64-разрядных ключей. 

10 . 49 . Выполнить упражнение 10.48 для трехпутевой поразрядной сортировки 
ЬЗЭ. 





Методы сортировки 

специального 

назначения 

М етоды сортировки являются критическими компо- 
нентами многих прикладных систем. Довольно ча- 
сто предпринимаются специальные меры, чтобы сделать 
сортировку максимально быстрой или придать ей способ- 
ность выполнять обработку особо крупных файлов. Не- 
редки случаи, когда специально для того, чтобы повысить 
возможности сортировки, в вычислительные системы вно- 
сятся усовершенствования, повышающие ее производи- 
тельность, разрабатываются специальные аппаратные 
средства или просто выбираются компьютерные системы, 
в основу которых положены новые архитектурные реше- 
ния. Во всех подобных случаях представления об относи- 
тельной стоимости операций, выполняемых над сортиру- 
емыми данными, которыми мы руководствуемся, могут 
оказаться непригодными. В данной главе мы исследуем 
примеры методов сортировки, которые разрабатываются 
для эффективного применения на конкретных типах ма- 
шин. Мы рассмотрим некоторые примеры ограничений, 
налагаемых на высокопроизводительные аппаратные 
средства, а также несколько методов, которые могут ока- 
заться полезными на практике в плане реализации высо- 
коэффективных видов сортировки. 

Проблема поддержки эффективных методов сортиров- 
ки рано или поздно встает перед любой новой архитекту- 
рой вычислительных систем. В самом деле, исторически 
сложилось так, что сортировка служит своеобразным ис- 
пытательным стендом, позволяющим получить объектив- 
ную оценку новой архитектуры ввиду того, что она име- 
ет важное практическое значение, а также благодаря 
тому, что она легка для восприятия. Мы хотим знать не 
только то, какой из известных алгоритмов и в силу каких 
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причин выполняется на новой машине лучше других, но также и то, можно ли в рам- 
ках того или иного нового алгоритма воспользоваться конструктивными особенно- 
стями конкретной машины. Чтобы разработать новый алгоритм, мы даем определе- 
ние некоторой абстрактной машины, которая инкапсулирует основные свойства 
реальной машины, разрабатываем и анализируем алгоритмы для этой абстрактной 
машины, затем пишем программы лучших алгоритмов, тестируем эти программные 
реализации, после чего вносим усовершенствования как в сами алгоритмы, так и в 
их программные реализации. С этой целью мы воспользуемся сведениями, получен- 
ными нами при изучении материалов, изложенных в главах 6—10, в том числе и опи- 
саниями многих методов, ориентированных на выполнение на машинах общего на- 
значения. В то же время абстрактные машины налагают на эти алгоритмы ряд 
ограничений, которые помогут нам учесть реальные затраты и убедиться в том, что 
каждый алгоритм достигает максимальной эффективности на том или ином конкрет- 
ном виде машины. 

На одном конце спектра находятся модели низкого уровня, в рамках которых 
разрешается выполнение только операции сравнения-обмена. На другом конце спек- 
тра находятся модели высокого уровня, в условиях которых мы выполняем считыва- 
ние и запись блоков данных больших объемов на медленнодействующие внешние 
носители информации или распределяем данные между параллельными процессорами. 

В первую очередь мы рассмотрим версию сортировки слиянием, известную как 
нечетно-четная сортировка слиянием Бэтчера ( ВаісНег’з осісі-еѵеп тег%езогі). В ее осно- 
ву положен алгоритм слияния, функционирующий по принципу разделяй и властвуй, 
который использует только операции сравнения-обмена, при этом для перемещения 
данных употребляются операции идеального тасования (рефсі-зкиДІе) и операция иде- 
ального обратного тасования (рефсі ипзИифе). Они представляют интерес сами по себе 
и применяются для решения проблем, отличных от сортировки. Далее мы будем рас- 
сматривать метод Бэтчера как сеть сортировки. Сеть сортировки (зогііп% пеімогіс) пред- 
ставляет собой простую абстракцию для аппаратных средств сортировки. Такая сеть 
состоит из соединенных друг с другом посредством межкомпонентных связей компа- 
раторов (сотрагаіогз ) , представляющих собой модули, способные выполнять операции 
сравнения-обмена. 

Другой важной проблемой абстрактной сортировки является проблема внешней сор- 
тировки ( ехіетаі зогйпр ) ; в этом случае сортируемый файл обладает такими огромными 
размерами, что не помещается в оперативной памяти. Стоимость доступа к индиви- 
дуальным записям может оказаться непомерно высокой, в силу этого обстоятельства 
мы должны использовать абстрактную модель, в которой записи передаются между 
внешними устройствами в виде блоков больших размеров. Мы рассмотрим два алго- 
ритма внешней сортировки и воспользуемся соответствующей моделью, чтобы срав- 
нить их между собой. 

В заключение мы рассмотрим параллельную сортировку (рагаііеі зогііщ) на тот слу- 
чай, когда сортируемый файл распределяется между независимыми параллельными 
процессорами. Мы дадим определение простой модели параллельной машины, а за- 
тем выясним, при каких условиях метод Бэтчера обеспечит эффективное решение 
этой проблемы. Использование одного и того же базового алгоритма для проблем 
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высокого уровня и низкого уровня служит наглядной иллюстрацией того, какой мо- 
щью обладает абстракция. 

Различные абстрактные машины, рассматриваемые в этой главе, достаточно про- 
сты, однако заслуживают подробного изучения, поскольку инкапсулируют в себе кон- 
кретные ограничения, которые могут оказаться критичными для некоторых прило- 
жений сортировки. Аппаратные средства сортировки низкого уровня должны состоять 
из простых компонентов; внешняя сортировка в общем случае требует поблочного 
доступа к особо крупным файлам данных, а параллельная сортировка накладывает 
определенные ограничения на связи с процессорами. С одной стороны, мы не мо- 
жем в полной мере воспользоваться подробной моделью машины, которая полнос- 
тью соответствует конкретной реальной машине, с другой стороны, абстракции, ко- 
торые мы рассматриваем, приводят нас не только к теоретическим формулировкам, 
содержащим информацию о наиболее важных ограничениях, но также и к весьма 
интересным алгоритмам, которые можно использовать непосредственно на практи- 
ке. 


11.1 Четно-нечетная сортировка слиянием 

Бэтчера 

Для начала мы рассмотрим метод сортировки, в основе которых лежат две следу- 
ющих абстрактных операции: операция сравнения обмена (сотраге-ехскап^е) и опера- 
ция идеального тасования {рефсі зки//1е) (вместе с ее антиподом, операцией идеально- 
го обратного тасования (рефсі ипзкцЦІе)). Алгоритм, разработанный Бэтчером в 1968 г., 
известен как нечетно-четная сортировка слиянием Бэтчера ( Ваіскег'з осМ-еѵеп тег^езогі). 
Реализовать алгоритм, используя операции тасования, сравнения-обмена и двойной 
рекурсии, несложно; гораздо труднее понять, почему алгоритм работает, и распутать 
все тасования и рекурсии, чтобы понять, как он работает на нижнем уровне. 

Мы уже подвергали беглому анализу операцию сравнения-обмена в главе 6, где 
отметили, что некоторые рассматриваемые при этом элементарные методы сортиров- 
ки могут быть четко выражены в терминах этой операции. В настоящий момент нас 
интересуют методы, в условиях которых данные проверяются исключительно через 
операций сравнения-обмена. Стандартные операции сравнения исключаются: опера- 
ции сравнения-обмена не возвращают результат, следовательно, у программы нет 
возможности выполнять те или иные действия в зависимости от конкретных значе- 
ний данных. 

Определение 11.1 Неадаптивный алгоритм сортировки — это алгоритм, в котором 
последовательность выполняемых операций зависит только от числа входных данных , а 
не от значений ключей. 

В этом разделе мы допускаем использование операций, которые в одностороннем 
порядке выполняют переупорядочивание данных, такие как операции обмена и та- 
сования, но без этих операций, как мы увидим в разделе 11.2, можно обойтись. Не- 
адаптивные методы эквивалентны неветвящимся программам сортировки: они могут 
быть записаны в виде простого перечня операций сравнения-обмена. 
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Например, последовательность 

сотрехсЬ ( а [ 0 ] , а[1]) 
сотрехсЬ ( а [ 1 ] , а [2]) 
сотрехсЬ ( а [ 0 3 , а [ 13 ) 

суть неветвящаяся программа, выполняющая сорти- 
ровку трех элементов. Мы используем циклы, тасования 
и другие операции высокого уровня, преследуя цель 
удобной и экономной записи алгоритма, однако основ- 
ная цель при разработке алгоритма состоит в том, что- 
бы определить для каждого N фиксированную последо- 
вательность операций сошрехсЬ, которые способны 
выполнить сортировку любого набора из N ключей. Мы 
можем без ущерба для общности рассуждений предполо- 
жить, что ключи принимают целочисленные значения в 
диапазоне от 1 до N (см. упражнение 11.4); чтобы убе- 
диться в том, что неветвящаяся программа работает пра- 
вильно, достаточно доказать, что она сортирует каждую 
из возможных перестановок этих значений (см., напри- 
мер, упражнение 11.5). 

Лишь немногие из алгоритмов, которые мы успели 
обсудить в главах 6—10, являются неадаптивными алго- 
ритмами — все они используют операцию орега!ог< либо 
проверяют ключи каким-то другим способом, после чего 
выполняют действия в зависимости от значений ключей. 
Исключением является пузырьковая сортировка (см. раз- 
дел 6.4), в условиях которой используются только опера- 
ции сравнения-обмена. Версия Пратта сортировки мето- 
дом Шелла (см. раздел 6.6) служит еще одним примером 
неадаптивного метода сортировки. 

Программа 11.1 представляет собой реализацию дру- 
гих абстрактных операций, которыми мы будем пользо- 
ваться в дальнейшем — операции идеального тасования 
и операции обратного идеального тасования (на рис. 
11.1 дается пример каждой из них). Идеальное тасование 
переупорядочивает массив так, как может перетасовать 
колоду карт только большой специалист этого дела: ко- 
лода делится точно наполовину, затем карты по одной 
берутся из каждой половины колоды. Первая карта все- 
гда берется из верхней половины колоды. Если число 
карт в колоде четное, в обеих половинах содержится оди- 
наковое их число, если число карт нечетное, то лишняя 
карта идет последней в верхней половине колоды. 



х х х х 


РИСУНОК 11.1. ИДЕАЛЬНОЕ 
ТАСОВАНИЕ И ОБРАТНОЕ 
ИДЕАЛЬНОЕ ТАСОВАНИЕ 

При выполнении идеального 
тасования (слева) мы берем 
первый элемент файла , затем 
первый элемент из второй 
половины файла, затем 
второй элемент файла и 
второй элемент из второй 
половины файла и т. д. 
Предположим, что элементы 
перенумерованы сверху вниз, 
начиная с 0. Следовательно, 
элементы из первой половины 
занимают позиции с четными 
номерами, а элементы из 
второй половины занимают 
нечетные позиции. Чтобы 
выполнить обратное 
идеальное тасование (справа), 
мы должны выполнить 
обратную процедуру: 
элементы, занимающие 
четные позиции, переходят в 
первую половину файла, 
элементы, занимающие 
нечетные позиции, — во 
вторую половину. 
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Часть 3 . Сортировка 


Обратное идеальное тасование выполняет обратную процедуру: мы попеременно 
откладываем карты в верхнюю и нижнюю половину колоды. 

Программа 11.1 Идеальное тасование и обратное идеальное тасование 

Функция зНиНІе переупорядочивает подмассив а[1], . . . , а[г] путем деления этого 
подмассива пополам, после чего попеременно берет элементы из каждой полови- 
ны массива: элементы из первой половины переходят в позиции с четными номе- 
рами получающегося при этом массива, а элементы из второй половины переходят 
в позиции с нечетными номерами. Функция ипзНиНІе выполняет обратную проце- 
дуру: элементы, занимающие четные позиции, переходят в первую половину полу- 
чающегося при этом массива, а элементы, занимающие нечетные позиции, пере- 
ходят во вторую половину. Мы применяем эти функции только к подмассивам, 
содержащим четное число элементов. 

‘ЬетрІа'Ье Ссіазз 1 < Ьет> 

ѵоісі зЪиііІе (ІЬѳт а [ ] , ііѵЬ 1 , іпЬ г) 

{ іпЪ і, 3, т = (1+г) /2 ; 

З'Ьаѣіс Іѣет аих[тахИ] ; 

іог (і = 1, з = 0; і <= г; і+=2, 3++) 

{ аих[і] = а[1+з]; аих[і+1] = а[т+1+з]; } 

іог (і = 1; і <= г; і++) а[і] = аих[і]; 

} 

< Ьетр 1 а < Ье Ссіазз Іѣеп^ 

ѵоісі ипзЬи^^Іе (Нет а[], іпЬ 1 , іпЬ г) 

{ іп-Ь і, з, т « (1+г)/2; 

зЬаЬіс ІЬет аих{тахЛ] ; 

ІОТ (і = 1, 3 = 0; і <= г; і+=2, з++) 

{ аих[1+з] = а[і]; аих[т+1+з] = а[і+1] ; } 

^ог (і = 1; і <= г; і++) а[і] = аих[і] ; 


Сортировка Бэтчера представляет собой в точности нисходящую сортировку сли- 
янием, описанную в разделе 8.3; различие состоит лишь в том, что вместо одной из 
адаптивных реализаций слияний из главы 8 она использует нечетно-четное слияние Бэт- 
чера, представляющее собой неадаптивное нисходящее рекурсивное слияние. Програм- 
ма 8.3 сама по себе вообще не выполняет доступа к данным, так что из факта использо- 
вания нами неадаптивного слияния следует, что и сама сортировка неадаптивная. 

На протяжении этого раздела и раздела 11.2 мы неявно предполагаем, что число 
сортируемых элементов является степенью 2. Следовательно, мы всегда можем упот- 
ребить значение ”7Ѵ/ 2 м , не опасаясь того, что N — нечетное. Это предположение ус- 
ловно — рассматриваемые нами программы и примеры рассчитаны на любые разме- 
ры файлов, тем не менее, оно существенно упрощает наши рассуждения. К этой 
проблеме мы вернемся в конце раздела 11.2. 

Слияние Бэтчера само по себе является рекурсивным методом "разделяй и вла- 
ствуй". Чтобы выполнить слияние 1-с- 1 , мы употребляем только одну операцию срав- 
нения-обмена. Во всех прочих случаях, для выполнения слияния N-с-N мы осуществ- 
ляем обратное тасование, чтобы свести эту задачу к двум задачам слияния УѴ/2-С-./Ѵ/2, 
после чего решаем их в рекурсивном режиме, в результате чего получаем два отсор- 
тированных файла. Тасуя эти файлы, мы получаем почти отсортированный файл; все, 
что теперь нам нужно — это один проход для выполнения N/2 — 1 независимых друг 
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от друга операций сравнения-обмена между элемен- 
тами 2 / и 2/ +1, где і пробегает значения от 1 до 
N/2-1. Соответствующий пример показан на 
рис Л 1.2. Это описание позволяет без труда написать 
программу 11.2. 

Почему этот метод сортирует все возможные пе- 
рестановки входных данных? Ответ на этот вопрос 
далеко не очевиден; классическое доказательство 
этого факта — это на самом деле косвенное доказа- 
тельство, которое построено на общих характеристи- 
ках неадаптивных программ сортировки. 

Программа 11.2. Нечетно-четное слияние Бэтчера 
(рекурсивная версия) 

Эта рекурсивная программа реализует абстрактное об- 
менное слияние, используя для этой цели операции 
зІшНІе и ипвНиНІе из программы 11.1, хотя это и не обя- 
зательно — программа 11.3 представляет собой нерекур- 
сивную версию данной программы, в которой тасование 
не используется. Основной интерес для нас представля- 
ет тот факт, что рассматриваемая реализация является 
компактным описанием алгоритма Бэтчера, когда раз- 
мер файла является степенью 2. 

ѣетріаѣе Ссіазз ІЪет> 

ѵоісі тегде(Іѣет а[] , іігЬ 1, іпѣ т, іпі: г) 

{ 

(г = 1+1) сотрехсЬ ( а [ 1 ] , а[г]); 

(г < 1+2) геѣигп; 
ипзЬи^ЕІе (а, 1, г); 
тег де (а, 1, (1+т)/2 / т) ; 

тегде(а, т+1 , (т+1+г)/2, г) ; 

зЬиі:і:1е(а, 1, г) ; 

±ох (іпѣ і = 1+1; і < г; і+=2) 
сотрехсЬ (а [і] , а[і+1]); 

} 


Лемма 11.1. ( Принцип нулей и единиц) Если неадап- 
тивная программа выдает отсортированный выход в 
случае, когда входы состоят только из 0 и 1, то она 
делает то же, когда входами являются произвольные 
ключи. 

См. упражнение 11.7. 

Лемма 11.2. Нечетно-четное слияние Бэтчера (про- 
грамма \\.2) это правильный метод слияния 

Опираясь на принцип нулей и единиц, мы прове- 
ряем только, правильно ли работает метод слия- 
ния, когда входами являются нули и единицы. 
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РИСУНОК 11.2. ПРИМЕР 
ВЫПОЛНЕНИЯ НИСХОДЯЩЕГО 
НЕЧЕТНО-ЧЕТНОГО СЛИЯНИЯ 
БЭТЧЕРА 

Чтобы слить А С I N О К Б Тс 
А Е Е Ь МРХ У, мы начнем с 
того, что выполним операцию 
обратного тасования , которая 
приводит к возникновению двух 
независимых друг от друга задач 
слияния наполовину меньших 
массивов (показаны во второй 
строке): нам надо слить А I О Б 
с А Е МХ (в первой части 
массива) и С N К Тс Е Ь Р У 
(во второй части массива). 
После того, как эти подзадачи 
будут решены в рекурсивном 
режиме, мы тасуем массивы , 
полученные в результате 
решения этих подзадач 
(полученные в предпоследней 
строке) и завершаем эту 
сортировку выполнением 
операций сравнения-обмена Е с 
А, С с Е, Ь с I, N с М, Р с О, Я с 
БиТсХ. 


Часть 3. Сортировка 


Предположим, что в первом подфайле содержатся 
/ нулей и у нулей во втором подфайле. Доказатель- 
ство этой леммы требует рассмотрения четырех 
случаев в зависимости от того, являются ли / и у 
четными или нечетными числами. Если обе пере- 
менные имеют четные значения, то две подзадачи 
слияния выполняется над двумя файлами, при 
этом один файл содержит і/2 нулей, а другой файл 
— у / 2 нулей, так что в обоих случаях получивший- 
ся при слиянии файл содержит (/+ у ) / 2 нулей. Вы- 
полнив тасование, получим сортированный файл 
типа 0-1. Файл типа 0-1 подвергается тасованию и 
в тех случаях, когда і — четное, а у — нечетное 
число, а также когда / — нечетное, а у — четное 
число. Но если оба / и у — нечетные числа, то мы 
завершаем эту процедуру тем, что тасуем файл, со- 
держащий (/ +у ) / 2 + 1 нулей с файлом, содержа- 
щим (/ + у ) / 2 — 1 нулей, следовательно, получен- 
ный после тасования файл содержит / +у — 1 нулей, 
единицу, ноль и N — / — у — 1 единиц (см. рис. 11.3), 
и один из компараторов на завершающей стадии 
заканчивает сортировку. 

На самом деле нет необходимости тасовать дан- 
ные. И действительно, мы можем переделать про- 
граммы 11.2 и 8.3 таким образом, чтобы на выходе 
они имели неветвящуюся сортирующую программу 
для любого ТУ, скорректировав функции сотрехсЬ и 
$ЬиШе с тем, чтобы они поддерживали индексы и осу- 
ществляли косвенные обращения к данным (см. уп- 
ражнение 11.12). Либо мы можем заставить эту про- 
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РИСУНОК 11.3. ЧЕТЫРЕ СЛУЧАЯ 
СЛИЯНИЯ ТИПА 0-1. 

Каждому из четырех примеров 
отводится по 5 строк: задача 
слияния типа 0- 1, результат 
выполнения операции обратного 
тасования, поторый порождает 
две подзадачи слияния; 
результат рекурсивного 
завершения слияний; результат 
тасования и результат 
завершающих нечетно-четных 
сравнений. На последней стадии 
обмен выполняется только, когда 
число нулей в обоих входных 
файлах нечетно. 


грамму генерировать последовательность команд 

сравнения-обмена для последующего применения к исходному входному файлу (см. 
упражнение 11.13). Мы можем использовать эти приемы для любого неадаптивного 
метода сортировки, который выполняет переупорядочивание данных при помощи 
операций обмена, тасования или им подобных. Что касается слияния Бэтчера, то 


структура этого алгоритма настолько проста, что мы сразу можем приступить к раз- 
работке восходящей программной реализации, в чем убедимся уже в разделе 11.2. 


Упражнения 

> 11 . 1 . Покажите результат тасования и обратного тасования клучей Е А 8 V О 11 

Е 8 Т I О N. 

11 . 2 . Обобщить программу 11.1 на случай, когда нужно выполнить А-путевое та- 
сование и обратное тасование. 

• 11 . 3 . Реализовать операции тасования и обратного тасования без использования 
вспомогательного массива. 


Глава 11, Методы сортировки специального назначения 


445 


• 11.4. Показать, что неветвящаяся программа, которая сортирует N различных 
ключей, сможет отсортировать N ключей, которые не обязательно различны. 

>11.5. Показать, как неветвящаяся программа, приведенная в тексте, сортирует 
каждую из шести перестановок чисел 1, 2 и 3. 

о 11.6. Приведите пример неветвящейся программы, которая выполняет сортировку 
четырех элементов. 

• 11.7. Доказать лемму 11.1. Совет : Показать, что если программа не способна вы- 
полнить сортировку некоторого входного массива с произвольными ключами, то 
существует некоторая последовательность типа 0-1, которую она также не может 
отсортировать. 

>11.8. Показать, как выполняется слияние ключей АЕ0811УЕІІЧО8ТС по- 
мощью программы 11.2 в стиле примера, представленного на диаграмме рис. 11.2. 

>11.9. Выполнить упражнение 1 1.8 для ключей АЕ8УЕІІЧО(28ТІ]. 

о 11.10. Выполнить упражнение 11.8 для ключей 10011 1000001010 0. 

11.11. Эмпирически выполнить сравнение времени выполнения сортировки сли- 
янием Бэтчера аналогичным параметром стандартной нисходящей сортировки сли- 
янием (программы 8.3 и 8.2) для УѴ= 10 3 , ІО 4 , ІО 5 и ІО 6 . 

11.12. Предложите реализации функций сотрехсЬ, зЬийІе и ипзЬиШе, которые за- 
ставляют программы 11.2 и 8.3 работать в режиме непрямой сортировки (см. раз- 
дел 6.8). 

о 11.13. Предложите реализации функций сотрехсЬ, зЬиГПе и ипзЬиШе, которые за- 
ставляют программы 11.2 и 8.3 печатать для заданного N неветвящуюся програм- 
му сортировки N элементов. Вы можете воспользоваться вспомогательным гло- 
бальным массивом для отслеживания значений индексов. 

11.14. Если мы представим второй файл из предназначенных для слияния в обрат- 
ном порядке, мы получим битонную (Ыіопіс) последовательность в соответствии с 
определением, данным в разделе 8.3. Внеся изменения в заключительный цикл 
программы 11.2 так, чтобы он начинался с 1, а не с 1 + 1, мы получим програм- 
му, которая сортирует битонные последовательнсти. Показать, как с помощью 
этого метода выполняется слияние ключей АЕ8С?ІІУТ80]ЧІЕв стиле при- 
мера, показанного на диаграмме на рис. 11.2. 

• 11.15. Доказать, что модификация программы 11.2, описанная в упражнении 11.14, 
способна выполнить любой битонной последовательности. 

11.2. Сети сортировки 

Простейшей моделью для изучения неадаптивных алгоритмов сортировки является 
абстрактная машина, которая способна осуществлять доступ к данным только с по- 
мощью операций сравнения-обмена. Такая машина называется сетью сортировки 
(зогііп% пеРмогк). Сеть сортировки построена из атомарных модулей сравнения-обмена 
(< сотраге-ехскагще тойиіез ) или компараторов ( сотрагаіогз ), которые соединены между 
собой линиями связи таким образом, что становится возможным выполнение полной 
сортировки общего вида. 
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На рис. 11.4 показана простая сеть, выполняю- 
щая сортировку четырех ключей. Обычно мы 
изображаем сеть сортировки N элементов в виде 
последовательности N горизонтальных прямых 
линий, при этом каждый компаратор соединен с 
двумя линиями. Можно считать, что сортируемые 
ключи проходят по сети справа налево, при этом 
при необходимости происходит обмен пары чисел, 
в результате которого меньшее из двух чисел по- 
дымается вверх всякий раз, когда на их пути воз- 
никает компаратор. 

Необходимо снять целый ряд вопросов, прежде 
чем станет возможным построение реальной сор- 
тирующей машины, работающей по этой схеме. 

Например, не описан метод кодирования входов. 

В рамках одного из подходов каждую связь на рис. 

11.4 можно рассматривать как группу линий, каж- 
дая такая линия несет один бит данных, следова- 
тельно, все биты ключа распространяются по ли- 
нии одновременно. Другой подход заключается в 
том, что данные поступают на входы компарато- 
ров по одной линии побитно, т.е. 1 бит за едини- 
цу времени (первыми идут наиболее значащие 
биты). Кроме того, совершенно не затрагивался 
вопрос синхронизации: должны быть предусмотре- 
ны механизмы, препятствующие срабатыванию 
компараторов, прежде чем поступят входные данные. Сети сортировки представля- 
ют собой полезные абстракции, поскольку они позволяют нам отделять детали реа- 
лизации от проектных решений более высокого порядка, таких как, например, ми- 
нимизация числа компараторов. Более того, как мы убедимся в разделе 11.5, 
абстрактное понятие сети сортировки может быть с пользой применено и в приложе- 
ниях, отличных от построения электронных схем различного назначения. 

Еще одним важным применением сетей сортировки является модель параллельных 
вычислений. Если два компаратора не используют одних и тех же линий для ввода 
данных, то мы полагаем, что они могут работать одновременно. Например, сеть, 
изображенная на рис. 11.4, показывает, что четыре элемента могут быть отсортиро- 
ваны за три параллельных шага. Компаратор 0-1 и компаратор 2-3 могут работать 
одновременно на первом шаге, после чего компаратор 0-2 и компаратор 1-3 могут 
одновременно работать на втором шаге, а компаратор 2-3 завершает сортировку на 
третьем шаге. Для любой заданной сети нетрудно сгруппировать компараторы в пос- 
ледовательность параллельных каскадов (рагаііеі Ма%е), каждый из которых состоит из 
компараторов, которые могут работать одновременно (см. упражнение 11.17). Что- 
бы параллельные вычисления были эффективными, нашей задачей становится разра- 
ботка сетей с минимально возможным числом параллельных каскадов. 


С — В В 1 # — А А А 

в -4— с с —I— с — с — в 

о _____ 0 • А — і — В — I — В - ! • - с 

А А — 4 — О О -I— О О 

РИСУНОК 11.4. СЕТЬ СОРТИРОВКИ 

Ключи перемещаются по линиям 
сети сортировки слева направо. 
Компараторы, которые они 
встречают на своем пути, 
производят при необходимости 
обмен ключей, в результате 
которого меньший из двух ключей 
поднимается на верхнюю линию. В 
рассматриваемом примере на двух 
верхних линиях производится 
обмен ключей В и С, за ним 
следует обмен Ли /) на двух 
нижних линиях, затем происходит 
обмен Ли В и так далее, так что 
в конечном итоге ключи 
предстают перед нами 
отсортированными сверху вниз. В 
этом примере все компараторы, 
за исключением четвертого, 
выполняют операцию обмена. 

Такая сеть способна 
отсортировать любые 
перестановки из четырех ключей. 
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Программа 11.2 непосредственно соответствует сети слияния для каждого N. в то 
же время нам полезно ознакомиться с прямой восходящей структурой, изображенной 
на рис. 11.5. Чтобы построить сеть слияния размера N мы воспользуемся двумя копи- 
ями сети размером АУ 2; одна из них предназначена для линий с четными номерами, 
а другая — для линий с нечетными номерами. Поскольку соответствующие два набо- 
ра компараторов не пересекаются, мы можем разместить их таким образом, чтобы 
обе эти сети чередовались. После этого мы расставим компараторы между линиями 
1 и 2, 3 и 4 и т.д. Чередование нечетных и четных линий заменяет идеальное тасо- 
вание, использованное в программе 11.2. Доказательство того, что эти сети выпол- 
няют слияние должным образом, аналогично доказательствам лемм 11.1 и 11.2, для 
которых применялся принцип нулей и единиц. На рис. 11.6 показан пример выполне- 
ния слияния этого типа. 

Программа 11.3. является восходящей реализацией слияния Бэтчера без операции 
тасования, соответствующей сетям, представленным на рис. 11.5. Эта программа пред- 
ставляет собой компактную и элегантную обменную (не использующую дополнитель- 
ного пространства оперативной памяти) функцию слияния, которую, возможно, легче 
понять, если считать ее чередующимся представлением сетей, в то же время прямое 
доказательство того, что она правильно завершает задачу слияния, само по себе очень 
интересно. Мы проведем исследование одного такого доказательства в конце этого 
разде/іа. 





РИСУНОК 11.5. НЕЧЕТНО-ЧЕТНОЕ СЛИЯНИЕ БЭТЧЕРА 

Показанные на этом рисунке различные представления сетей на четыре (сверху), восемь (в центре) и 
16 (внизу) линий служат иллюстрацией рекурсивной структуры, положенной в основу сети. Слева 
показаны прямые представления конструкции сети размера N с двумя копиями сетей размера N/2 
(одна для линий с четной нумерацией, другая для линий с нечетной нумерацией) плюс каскад 
компараторов, соединенных с линиями 1 и 2, 3 и 4, 5 и 6 и т.д. Справа показаны более простые сети, 
которые были получены нами из сетей, изображенных слева, путем группирования компараторов 
одинаковой длины; такое группирование стало возможным в связи с тем, что мы можем перемещать 
компараторы, установленные на нечетных линиях, мимо компараторов на нечетных линиях, не 
нарушая их работы. 


Часть 3. Сортировка 


Рисунок 11.7 служит иллюстрацией сети нечетно-четной сортировки Бэтчера, по- 
строенной на основе Сетей слияния, представленных на рис. 11.5, с использованием 
стандартной конструкции рекурсивной сортировки слиянием. Эта конструкция дваж- 
ды рекурсивна: один раз для сетей слияния, другой раз — для сетей сортировки. И 
хотя они не оптимальны — мы вскоре рассмотрим оптимальные сети — тем не ме- 
нее, они достаточно эффективны. 

Программа 11.3. Нечетно-четное слияние Бэтчера (нерекурсивная версия) 

Данная реализация нечетно-четного слияния (которая предполагает, что размер фай- 
ла N является степенью 2) компактна и своеобразна. Мы сможем понять как она со- 
вершает процедуру слияния, выполнив исследования, в какой степени она соответству- 
ет рекурсивной версии (см. программу 11.2 и рис. 11.5). Она завершает слияние за ІдЛ/ 
проходов, представленных единообразными и независимыми командами сравнения- 
обмена. 


ѣетрІа'Ье Ссіазз Іі:ет> 

ѵоісі тегде(Іѣѳт а[] , іпѣ 1, іпѣ т, іп+ г) 

{ іпЪ N = г-1+1; // предполагается, что 

// N/2 это т-1+1 

^ог (іпЪ к = N/2; к > 0; к /= 2) 

*ог (іп! ] = к % (N/2); ^+к<N; } += к+к) 

^ог (іпЪ і = 0; і < к; і++) 

сотрехсЬ (а [1+э+і] , а [1+^+і+к] ) ; 

} 


Лемма 11.3. Сети нечетно -четной сортировки Бэт- 
чера используют приблизительно N (1§7Ѵ) 2 / 4 компа- 
раторов и могут быть выполнены за (1&/Ѵ) 2 / 2 парал- 
лельных шагов. 

Сеть слияния требует выполнения около \%М па- 
раллельных шагов, а сети сортировки требуют 
выполнения 1 + 2 +...+ \%М или примерно (1§УѴ) 2 / 2 
параллельных шагов. Подсчет компараторов ос- 
тавляем читателю в качестве упражнения (см. уп- 
ражнение 11.23). 

Использование функции слияния в программе 
11.3 в рамках стандартной сортировки слиянием, 
представленной программой 8.3, позволяет получить 
компактный обменный неадаптивный метод сорти- 
ровки, который использует 0(Ы( 1§А0 2 ) операций 
сравнения-обмена. С другой стороны, мы можем 
удалить все рекурсии из сортировки слиянием и не- 
посредственно реализовать восходящую версию в 
полном ее объеме, как показано в программе 11.4. 
Как и в случае программы 11.3, эту программу лег- 
че понять, если рассматривать ее как чередующееся 
представление сети, показанной на рис. 11.7. 


АС I ЯОЯ5ТАЕЕІ.МРХѴ 

А ; : . . А 

: Е . С ' 


Е I 


•. 1. 

м 

N 

Я 

г 

••• : . ; * 1 • 

С . У 

Т V 

А Е Е І_ М Р 

5 Т А С 1 N О В X V 

А 

С 

М 

■ Р 


1 3 

•: ѵ\ 

N Т 

А Е Е 1 АС 

1 N М Р 3 Т О Я X V 

А Е 


с і 



1 м 


N Р 

* • • * • • . • ....... *.. .* , • 

0 5 


Я Т 

А Е А С Е 1 

1 N М Р 0 Я 3 Т X V 

А Е 



■ ' г I ь . 

М N 

ѵ о р ѵ - 

; Я 3 

Т X 

ААЕЕСІ ЬМИОРНЗТХУ 

РИСУНОК 11.6. ПРИМЕР НЕЧЕТНО- 
ЧЕТНОГО СЛИЯНИЯ БЭТЧЕРА. 

Если удалить все операции 
тасования, то для выполнения 
слияния Бэтчера применительно 
к нашему примеру потребуется 
25 операций слияния-обмена, 
изображенных на этой 
диаграмме. Их можно разбитъ на 
четыре фазы выполнения 
независимых операций сравнения - 
обмена с фиксированным сдвигом 
каждой фазы. 



РИСУНОК 11.7. НЕЧЕТНО-ЧЕТНЫЕ СЕТИ СОРТИРОВОК БЭТЧЕРА 

Данная сеть сортировки на 32 линии содержит две копии сетей на 16 линий, четыре копии сетей на 
восемь линий и т.д. Просматривая справа налево, мы как бы проходим через всю структуру сверху 
вниз: сеть сортировки на 32 линии состоит из сети слияния типа 16-с- 16, за которой следуют две 
копии сети сортировки на 16 линий (одна в верхней половине и одна в нижней половине). Каждая 
сеть на 16 линий состоит из сети слияния типа 8-С-8, за которой следуют две копии сети 
сортировки на 8 линий и т.д. Просматривая слева направо, мы проходим через эту структуру снизу 
вверх: первый столбец компараторов создает отсортированный файл размером 2; далее идут сети 
слияния типа 2-с- 2, которые создают отсортированные подфайлы размером 4; затем идут сети 
слияния типа 4-с-4, которые создают сортированные подфайлы размером 8 и т.д. 

Такая реализация предусматривает включение еще одного цикла и одной провер- 
ки в программу 11.3, поскольку слияние и сортировка обладают похожими рекурсив- 
ными структурами. Чтобы выполнить восходящий проход слияния последовательно- 
сти отсортированных файлов размера 2 к в последовательность отсортированных 
файлов размера 2 к+] , мы используем всю сеть слияния, но при этом включаем толь- 
ко те компараторы, которые полностью попадают в подфайлы. Данная программа 
может претендовать на получение приза как наиболее компактная нетривиальная ре- 
ализация сортировки, какую нам когда-либо приходилось видеть и которая может 
оказаться наилучшим выбором в тех случаях, когда мы хотим воспользоваться всеми 
преимуществами высокопроизводительных архитектурных особенностей для высоко- 
скоростной сортировки небольших файлов (или для построения сетей сортировки). 
Понимание того, как и почему сортирует рассматриваемая программа, может ока- 
заться неподъемной задачей, если мы лишимся перспективы использования рекурсив- 
ных приложений и сетевых конструкций, рассмотренных до сих пор. 

Как это часто случается с методами типа "разделяй и властвуй", мы сталкиваемся 
с двумя возможностями для выбора в случае, когда N не есть степенью 2 (см. упраж- 
нение 11.24 и 11.21). Мы можем поделить его напополам (сверху вниз) либо разде- 
лить на максимальное число, представляющее собой степень 2, меньшее N (снизу 
вверх). Последнее несколько удобнее для сетей сортировки, поскольку это эквива- 
лентно построению полной сети для минимальной степени 2, большей или равной УѴ, 
после чего использовать только первые N линий и компараторы, оба конца которых 
подключены именно к этим линиям. Предположим теперь, что на неиспользованных 
линиях имеются служебные ключи, которые больше любых других ключей сети. Тог- 
да компараторы на этих линиях никогда не производят операций обмена, так что их 
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можно удалить без ущерба для дальнейших действий. В самом деле, мы можем вое- 
пользоваться любым смежным набором из N линий большей сети: будем считать, что на 
игнорируемых линиях в верхней части имеются сигнальные метки с небольшими значе- 
ниями, а на игнорируемых линиях в нижней части имеются служебные метки с больши- 
ми значениями. Во всех этих сетях имеется примерно 1§А г ) 2 /4 компараторов. 

Программа 11.4. Нечетно-четная сортировка Бэтчера (нерекурсивная версия) 

Данная реализация нечетно-четной сортировки Бэтчера прямо соответствует пред- 
ставлению сети, отображенному на рис. 11.7. Она разбивается на фазы, индекси- 
руемые переменной р. Последняя фаза, когда р равно Л/, и есть нечетно-четное 
слияние Бэтчера. Предпоследняя фаза, когда р равно /Ѵ/2, есть нечетно-четное сли- 
яние с первым каскадом, и все компараторы, которые пересекаются с любой лини- 
ей, кратной Л//2, удаляются; третья фаза с конца, когда р равно Л//4, есть нечетно- 
четное слияние с двумя первыми каскадами, а все компараторы, которые 
пересекаются с любой линией, кратной Л//4, удаляются, и так далее. 

ѣетріаѣе <с1азз І+ѳт> 

ѵоіеі ЬаІсЬегзогІ (Ііеш а [ ] , іпѣ 1, іпЪ г) 

{ іпЪ N = г-1+1; 

^ог (іпЪ р = 1 ; р < II; р +=* р) 

^ог (ІП+ к * р; к > 0; к /«= 2) 

€ог (іпѣ з = к%р; з+к < Ы; з += (к+к) ) 

±ог (іп-Ь і * 0; і < И-з-к; і++) 
і* ( (з+і) / (Р+Р) = (з+і+к)/(р+р)) 
сотрехсЪ(а[1+з+і] , а[1+з+і+к]); 

} 


Теория сетей сортировки развивалась достаточ- 
но интересно (см. раздел ссылок). Задача построения 
сети с минимально возможным числом компарато- 
ров была поставлена Бозе (Возе) еще до 1960 г., 
впоследствии она получила название задачи Бозе- 
Нельсона (Возе-Неізогі). Сети Бэтчера были первым 
более-менее приемлемым решением этой задачи, а 
некоторые исследователи даже полагали, что сети 
Бэтчера оптимальны. Сети слияния Бэтчера опти- 
мальны, так что любая сеть сортировки с суще- 
ственно меньшим числом компараторов может 
быть построена только в рамках подхода, отличного 
от рекурсивной сортировки слиянием. Задача на- 
хождения оптимальных сетей сортировки не под- 
вергалась исследованиям до тех пор, пока в 1983 г. 
Аджтай (Дііаі), Колмос (Коішоз) и Шемереди 
(Зхешегесіу) не доказали существования сетей с 
0(УѴ1о§Л9 числом компараторов. Однако сети АКБ 
(А]1аі, Коігпоз и Згешегесіу) — это всего лишь мате- 
матические умозаключения, не имеющие практи- 
ческого применения, так что сети Бэтчера все еще 
считаются одними из наиболее подходящих для 
практического применения. 




РИСУНОК 11.8. 

Прямая реализация программы 11.2 
как сети сортировки порождает 
сеть , насыщенную рекурсивными 
операциями тасования и обратного 
тасования (вверху). Эквивалентная 
реализация (внизу) использует 
только операции полного тасования. 
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Связь между идеальным тасованием и сетями Бэт- 
чера позволяет завершить наши исследования сетей 
сортировки анализом одной забавной версии рассмат- 
риваемого алгоритма. Если мы перетасуем линии не- 
четно-четного слияния Бэтчера, то получим сети, в 
которых компараторы соединяют смежные линии. Ри- 
сунок 11.8 служит иллюстрацией сети, которая соот- 
ветствует реализации тасования, соответствующего 
программе 11.2. Эту схему межкомпонентных соеди- 
нений иногда называют сачком для ловли бабочек 
(Ьшіегру пеімгогк). На этом рисунке дано еще одно пред- 
ставление той же неветвящейся программы, которая 
предлагает еще более унифицированный шаблон: она 
использует только операции полного тасования. 

На рис. 11.9. показана еще одна интерпретация 
рассматриваемого метода, которая служит иллюстра- 
цией базовой структуры. Во-первых, мы записываем 
один файл под другим, далее, мы сравниваем смеж- 
ные по вертикали элементы и при необходимости вы- 
полняем их обмен так, чтобы меньший элемент нахо- 
дился выше большего. Затем мы делим каждый ряд на 
две равных части и чередуем половины этих рядов, 
после чего выполняем те же операции сравнения- 
обмена над числами во второй и третьей строках. В 
сравнении других пар рядов нет необходимости, по- 
скольку они были предварительно отсортированы. 
Операция деления и чередования оставляет как ряды, 
так и столбцы в отсортированном виде. Это свойство 
в общем виде сохраняется благодаря той же операции: 
каждый шаг удваивает число рядов, сокращает напо- 
ловину число столбцов и сохраняет ряды и столбцы в 
отсортированном виде, в конечном итоге мы получа- 
ем один столбец и N рядов, благодаря чему столбец 
полностью отсортирован. Связь между таблицей, пред- 
ставленной на рис. 11.9 и сетью, изображенной в ниж- 
ней части рис. 11.8, заключается в том, что когда мы 
разворачиваем таблицы по столбцам (за элементами 
первого столбца следуют элементы второго столбца и 
т.д.) мы замечаем, что перестановка, необходимая для 
перехода с одного шага на другой, есть ни что иное 
как идеальное тасование. 

Теперь с помощью абстрактной параллельной ма- 
шины со встроенными межкомпонентными соедине- 
ниями для идеальной сортировки, как показано на 
рис. 11.10, мы имеем возможность непосредственно 
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РИСУНОК 11.9. СЛИЯНИЕ 
МЕТОДОМ ДЕЛЕНИЯ И 
ЧЕРЕДОВАНИЯ. 

Записав вначале оба 
отсортированных файла в один 
ряд , мы выполняем их слияние 
посредством многократного 
повторения следующий 
процедуры: разбиваем каждый 
ряд на две равные части и 
чередуем полученные половины 
( слева), после чего выполняем 
операции сравнения-обмена над 
смежными по вертикали 
элементами, содержащимися в 
различных рядах (справа). 
Сначала у нас было 16 столбцов 
и 1 ряд, затем восемь столбцов и 
2 ряда, далее 4 столбца и четыре 
ряда, потом 2 столбца и восемь 
рядов и, наконец, 16 рядов и один 
столбец, который предстает в 
отсортированном виде. 
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РИСУНОК 10. 10. МАШИНА 
ИДЕАЛЬНОГО ТАСОВАНИЯ 

Изображенная на этом 
рисунке машина с 
межкомпонентными связями 
способна эффективно 
выполнять алгоритм Бэт ч ер а 
(равно как и множество 
других). Подобные связи 
используются в некоторых 
параллельных компьютерах. 



реализовать сеть, подобную показанной в нижней части рис. 11.8. Такая машина на 
каждом шаге выполняет предусмотренные рассматриваемым алгоритмом операции 
сравнения-обмена на некоторой паре смежных процессоров, после чего осуществля- 
ет идеальное тасование данных. Программирование работы этой машины сводится 
к определению, какие пары процессоров должны выполнять операции сравнения-об- 
мена на каждом цикле. 

На рис. 11.11. показаны динамические характеристики как восходящего метода, 
так и версии нечетно-четного слияния Бэтчера с полным тасованием. 

Тасование — это важная абстракция, описывающая движение данных в алгорит- 
мах, построенных по принципу "разделяй и властвуй", и она возникает в различных 
задачах, отличных от сортировки. Например, квадратная матрица размером 2"-на-2 я 
хранится в развернутом по рядам виде, затем п идеальных тасовок транспонируют эту 
матрицу (приводят матрицу к развернутому по столбцам виду). В число более важных 
примеров входят быстрые преобразования Фурье и полиномиальное приближение (см 
часть 8). Мы можем решить каждую из этих задач, воспользовавшись циклической 
машиной идеального тасования, подобной показанной на рис. 11.10, но с гораздо 
более мощными процессорами. Мы можем даже обдумать вариант с использовани- 
ем универсальных процессоров, способных выполнять прямое и обратное тасование 
(некоторые из машин этого типа были даже построены для практического примене- 
ния); мы вернемся к обсуждению параллельных машин данного типа в разделе 11.5. 

Упражнения 

11.1 6. Дать примеры сетей сортировки четырех (см. упражнение 11.6), пяти и ше- 
сти элементов. Использовать минимально возможное число компараторов. 

о 11.17. Написать программу, способную подсчитать число параллельных шагов, не- 
обходимых для выполнения любой неветвящейся программы. Совет : Воспользуй- 
тесь следующей стратегией присвоения меток. Отметьте входные линии как при- 
надлежащие к каскаду 0, затем для каждого компаратора выполните следующие 
действия: пометьте обе выходные линии как входные для каскада / + 1, если мет- 
ка одной из входных линий есть /, а метка другой линии не превосходит /. 

11.18. Сравнить время выполнения программы 11.4 с аналогичным показателем 
для программы 8.3 для случайно упорядоченных ключей при N = ІО 3 , ІО 4 , ІО 5 и ІО 6 . 

>11.19. Начертить сеть Бэтчера, ориентированную на слияние типа 10-с- 1 1 . 
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•• 11.20. Доказать существование зависимости между рекур- 
сивным обратным тасованием и тасованием, представ- 
ленном на рис. 11.8. 

о 11.21. Из изложенного в тексте следует, что на рис. 11.7 
в неявном виде представлено 11 сетей сортировки 21 эле- 
мента. Начертить ту из них, которая содержит минималь- 
ное число компараторов. 

11.22. Найти число компараторов в нечетно-четной сетях 
сортировки Бэтчера для 2 < N < 32, где сети, когда N не 
есть степень 2, строятся на базе первых N линий сети, 
построенной для наименьшей степени 2, превосходящей 
N. 

о 11.23. Для N = Т вывести точное выражение для опреде- 
ления числа компараторов, используемых в нечетно-чет- 
ной сетях сортировки Бэтчера. Совет : Проверьте свой 
ответ на данных рис. 11.7, которые показывают, что в 
сетях имеются 1, 3, 9, 25 и 65 компараторов для травно- 
го, соответственно, 2, 4, 8, 16 и 23. 

о 11.24. Построить сеть для сортировки 21 элемента, выб- 
рав для этой цели нисходящий рекурсивный стиль, когда 
сеть размером N представляет собой композицию сетей 
размером \_N / 2\ и \ N / 2], за которыми следует сеть сли- 
яния. (Воспользоваться решением упражнения 11.19 в ка- 
честве завершающей части сети.) 

11.25. Воспользоваться рекуррентными соотношениями 
для подсчета числа компараторов в сетях сортировки, по- 
строенных, как описано в упражнении 11.24 для 
2 < N < 32. Сравните полученные вами результаты с ре- 
зультатами, полученными в упражнении 11.22. 

• 11.26. Найти 16-линейную сеть сортировки, которая ис- 
пользует меньшее число компараторов, чем сеть Бэтчера. 

11.27. Вычертить сети слияния, соответствующие рис. 11.8, 
для битонных последовательностей, используя схему, опи- 
санную в упражнении 11.14. 

11.28. Вычертить сети сортировки, соответствующие сор- 
тировке Шелла с приращениями Пратта (см. раздел 6.6) 
для N = 32. 

11.29. Построить таблицу, содержащую число компарато- 
ров в сетях, описанных в упражнении 11.28, и число ком- 
параторов в сетях Бэтчера для N = 16, 32, 64, 128 и 256. 

11.30. Разработать сети сортировки, способные выпол- 
нять сортировку 3-сортированных или 4-сортированных 
файлов из N элементов. 



РИСУНОК 11.11. 

ДИНАМИЧЕСКИЕ 

ХАРАКТЕРИСТИКИ 

НЕЧЕТНО-ЧЕТНОГО 

СЛИЯНИЯ. 

Восходящая версия 
нечетно-четного слияния 
(слева) использует 
последовательность 
каскадов , посредством 
которых выполняется 
операция сравнения- 
обмена большей половины 
одного отсортированного 
файла с меньшей 
половиной следующего. 
При добавлении полного 
тасования (справа) 
рассматриваемый 
алгоритм приобретает 
совершенно другой вид. 
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• 11.31. Воспользуйтесь сетью из упражнения 11.30 для разработки схемы, подобной 
алгоритму Пратта, на базе чисел, кратных 3 и 4. Вычертите полученную сеть для 
N = 32 и решите упражнение 11.29 применительно к этой сети. 

• 11.32. Начертить версию нечетно-четной сети сортировки Бэтчера для N = 16, в 
условиях которой идеальное тасование выполняется между каскадами независи- 
мых компараторов, соединяющих смежные линии (четырьмя концевыми каскада- 
ми этой сети должны быть каскады из сети слияния в нижней части рис. 11.8). 

о 11.33. Написать программу слияния для машины, изображенной на рис. 11.10, со- 
блюдая следующие соглашения: каждая инструкция есть последовательность из 15 
бит, при этом /-й бит, 1 < / < 15, показывает (если он равен 1), что процессор і 
и процессор і - 1 должны выполнить операцию сравнения-обмена. Программа 
представляет собой последовательность инструкций, а машина выполняет идеаль- 
ное тасование между каждыми двумя инструкциями. 

о 11.34. Написать программу сортировки для машины, изображенной на рис. 11.10, 
соблюдая соглашения, сформулированные в упражнении 11.33. 

11.3. Внешняя сортировка 

Мы переходим к рассмотрению другого аспекта задачи абстрактной сортировки, 
которая возникает, когда сортируемый файл настолько велик, что не помещается 
целиком в оперативной памяти компьютера. Для описания такого рода ситуаций мы 
используем термин внешняя сортировка ( ехіетаі зогііщ ) . Существует множество различ- 
ных типов устройств внешней сортировки, которые накладывают различные ограни- 
чения на атомарные операции, применяемые при реализации таких видов сортиров- 
ки. Кроме того, будет полезно изучить методы сортировки, использующие две 
простейшие базовые операции: операция считывания ( геасі) данных из внешнего за- 
поминающего устройства в оперативную память и операция записи (\ѵгііе) данных из 
оперативной памяти на внешнее запоминающее устройство. Мы полагаем, что сто- 
имость этих двух операции настолько выше стоимости простейших примитивных вы- 
числительных операций, что последние в дальнейшем мы можем полностью игнори- 
ровать. Например, в условиях такой абстрактной модели мы можем позволить себе 
не учитывать стоимость сортировки в оперативной памяти! При огромных размерах 
оперативной памяти и неэффективных методах сортировки подобный подход может 
оказаться неоправданным, но в общем случае на практике при необходимости все- 
гда можно учесть эти затраты при расчете общей стоимости внешней сортировки. 

Многообразие типов внешних запоминающих устройств и их стоимость ставят раз- 
работку методов внешней сортировки в зависимость от состояния технологии на те- 
кущий момент. Эти методы могут оказаться очень сложными, многие параметры ока- 
зывают влияние на их рабочие характеристики; вполне может случиться так, что 
искусные методы могут оказаться недооцененными и невостребованными только в 
силу тех или иных изменений в технологии. По этой причине в данном разделе мы 
не будем заниматься вопросами разработки конкретных реализаций, а сосредоточим 
свои усилия на изучении общих принципов внешней сортировки. 

Довольно часто жесткие требования, предъявляемые к методам доступа к данным 
в зависимости от типа внешних устройств, оказываются более важным фактором, чем 
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высокая стоимость операций чтения-записи. Например, для большинства типов уст- 
ройств операции чтения и записи из внешнего запоминающего устройства в опера- 
тивную память в общем случае наиболее эффективно выполняется в виде крупных 
блоков данных. Помимо этого, внешние устройства, обладающие громадными воз- 
можностями, довольно часто разрабатываются с таким расчетом, что максимальной 
производительности они достигают в тех случаях, когда доступ к таким блокам дан- 
ных осуществляется последовательно. Например, мы не можем прочитать элемент дан- 
ных, хранящийся в конце магнитной ленты без того, чтобы не просмотреть элементы, 
хранящихся в начале ленты — на практике доступ к элементам данных на магнит- 
ной ленте ограничивается доступом к тем элементам, которые расположены в неко- 
торой окрестности элементов, доступ к которым осуществляется чаще, чем к осталь- 
ным. Некоторые из современных технологий обладают тем же свойством. В связи с 
этим, в данном разделе мы сосредоточимся на изучении методов, которые последо- 
вательно считывают и записывают крупные блоки данных, откуда непосредственно 
следует, что быстродействующие реализации этого вида доступа к данным могут быть 
достигнуты на машинах и устройствах тех типов, которые представляют для нас ин- 
терес. 

Когда мы выполняем процесс считывания или записи некоторого числа различных 
файлов, мы полагаем, что эти файлы находятся на различных внешних запоминаю- 
щих устройствах. На старых вычислительных машинах, в которых файлы хранились 
на сменных магнитных лентах, это предположение было непреложным требовани- 
ем. При работе с магнитными дисками становится возможной реализация алгорит- 
мов, которые, согласно замыслу, используют единственное внешнее устройство, но 
в общем случае работа с несколькими устройствами остается более эффективной. 

Первым шагом при создании высокоэффективной программы сортировки файлов 
сверхбольших размеров является создание копии файла. Вторым шагом может быть 
представление исходного файла в обратном порядке. Все трудности, с которыми при- 
ходится сталкиваться при решении этих задач, возникают и при реализации внешней 
сортировки. (В процессе сортировки иногда приходится выполнять одну из этих опе- 
раций.) Цель использования абстрактной модели состоит в том, чтобы отделить про- 
блемы построения программной реализации от проблем разработки алгоритма. 

Рассматриваемые алгоритмы сортировки представляют собой некоторую последо- 
вательность проходов по всем данным, и мы обычно определяем стоимость того или 
иного метода внешней сортировки путем простого подсчета числа таких проходов. В 
общем случае нам требуется сравнительно небольшое число проходов — десять или, 
возможно, меньше. В силу этого обстоятельства уменьшение этого числа проходов 
хотя бы на один существенно улучшает рабочие характеристики алгоритма. Основное 
наше предположение заключается в том, что мы полагаем, что основную долю вре- 
мени выполнения конкретного метода внешней сортировки составляют операции 
ввода и вывода данных, следовательно, мы можем вычислить время выполнения 
внешней сортировки, умножив число осуществляемых ею проходов на время, необ- 
ходимое для считывания и записи всего файла. 

Короче говоря, абстрактная модель сортировки, которой мы в дальнейшем будем 
пользоваться, построена на предположении, что сортируемый файл слишком велик, 
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чтобы полностью поместиться в оперативную память, и что он определяет значения 
двух других параметров: времени выполнения сортировки (число проходов по дан- 
ным) и количество используемых внешних устройств. Мы полагаем, что в нашем рас- 
поряжении имеются 

■ N записей на внешнем устройстве, сортировку которых мы должны выполнить 

■ пространство оперативной памяти, достаточное для размещения М записей 

■ 2 Р внешних устройств, которыми мы можем пользоваться во время сортиров- 
ки. 

Мы присваиваем метку 0 внешнему устройству, на котором находится файл вход- 
ных данных, и метки 1, 2, ..., 2 Р — 1 всем остальным внешним устройствам. Цель сор- 
тировки заключается в том, чтобы возвратить записи на устройство 0 в отсортирован- 
ном виде. Как мы увидим далее, существует некоторая зависимость между Р и общим 
временем выполнения сортировки — мы заинтересованы в том, чтобы получить эту 
зависимость в числовом выражении с тем, чтобы иметь возможность сравнить кон- 
курирующие стратегии. 

Существует несколько причин, в силу которых эта идеализированная модель мо- 
жет не соответствовать действительности. Тем не менее, как и всякая хорошая абст- 
рактная модель, она отображает наиболее важные аспекты реальной ситуации, и это 
обстоятельство очерчивает точные рамки, внутри которых можно проводить исследо- 
вания алгоритмических идей, многие из которых применяются непосредственно в 
практических ситуациях. 

Большая часть методов внешней сортировки соблюдает следующие принципы об- 
щего характера. Выполняется первый проход по сортируемому файлу, в процессе 
которого производится его разбиение на блоки, размер которых примерно соответ- 
ствует пространству оперативной памяти, после чего выполняется сортировка этих 
блоков. Затем осуществляется слияние отсортированных блоков, при необходимости 
с этой целью выполняются несколько проходов файла, при этом с каждым проходом 
степень упорядоченности возрастает, пока весь файл не окажется отсортированным. 
Такой подход называется сортировкой-слиянием (зогі-тег^е), он с успехом применяется 
на практике с тех пор, когда компьютеры получили широкое распространение в ком- 
мерческих приложениях в пятидесятых годах прошлого столетия. 

Простейшая стратегия сортировки-слияния, получившая название сбалансированного 
многопутевого слияния ( Ьаіапсесі тиіітау тег^іщ), показана на рис. 11.12. Этот метод 
состоит из прохода, осуществляющего начальное распределение ( іпШаІ бШгіЬшіоп ), за 
которым следуют несколько проходов многопутевого слияния (тиШ\ѵау тещіщ раззез). 

На начальном проходе мы осуществляем распределение входных данных (входа) 
по внешним устройствам Р, Р + 1,..., 2Р- 1 в виде отсортированных блоков данных, 
каждый из которых содержит М записей (за исключением, возможно, заключитель- 
ного блока, который меньше остальных, если N не кратно М). Такое распределение 
нетрудно выполнить — мы считываем первые М записей с устройства ввода, сорти- 
руем их и записываем полученный блок данных на устройство Р\ затем считываем 
следующие М записей с входного устройства, сортируем их и записываем отсортиро- 
ванный блок на устройство Р + 1 и т.д. Если, достигнув устройства 2Р— 1, у нас все 
еще остаются необработанные данные (т.е., если N > РМ), мы помещаем на устрой- 
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РИСУНОК 11.12. 

На проходе начального распределения берем элементы А 8 О из набора входных данных, сортируем их 
и помещаем отсортированную совокупность А О 8 на первое устройство для выходных данных. Да^\ее 
мы берем элементы КТ I из набора входных данных, сортируем их и помещаем отсортированную 
совокупность 1 КТ на второе устройство для выходных данных. Продолжая таким образом , 
производя соответствующие операции на выходных устройствах в цикле, мы в конечном итоге 
получаем 15 отрезков: по пять на каждом выходном устройстве. На первой стадии слияния мы 
осуществляем слияние отрезков А О 8, 1 К Т и А С IV, в результате чего получаем 
последовательность А А С I N О К 8 Т, которую мы записываем на первое выходное устройство, 
затем мы выполняем слияние вторых отрезков на входных устройствах и получаем 
последовательность /)1?(7<т/М7Ѵ7Ѵ1?, которую мы записываем на втором выходном устройстве, 
и т.д таким способом мы выполняем сбалансированное распределение данных на три устройства. 
Сортировка завершается двумя дополнительными проходами, на которых выполняется слияние. 


ство Р + 1 второй отсортированный блок и т.д. до тех пор, пока весь ввод не будет 
исчерпан. По завершении процедуры распределения количество отсортированных 
блоков, размещенных на каждом устройстве, равно значению УѴ/Л/, округленному до 
ближайшего целого числа в сторону уменьшения или увеличения. Если N есть крат- 
ное Л/, то размеры всех блоков одинаковы и равны IV/ М (если это не так, то все бло- 
ки, за исключением последнего, равны IV/ М). Для небольших N число блоков может 
оказаться меньше Р , ввиду чего одно или большее число устройств могут оказаться 
пустыми. 

На первом многопутевом проходе, осуществляющем слияние, мы рассматриваем 
устройства в интервале от Р до 2Р— 1 как входные, а устройства в интервале от 0 до 
Р — 1 как выходные. Мы осуществляем Р-путевое слияние блоков данных размером 
А/, помещенных на входные устройства, в результате которого получаем отсортиро- 
ванные блоки данных размером РМ , которые затем помещаем на выходные устрой- 
ства с соблюдением условия максимально возможного баланса. Прежде всего, мы про- 
изводим слияние первых блоков с каждого входного устройства и помещаем 
результат этого слияния на устройство 0, затем мы помещаем результат слияния вто- 
рых блоков на каждом входном устройстве, на устройство 1 и т.д. По достижении ус- 
тройства Р— 1 мы далее помещаем второй блок данных на устройство 0, затем вто- 
рой блок на устройство 1 и т.д. Мы продолжаем этот процесс до тех пор, пока все 
входные данные не будут исчерпаны. По завершении процедуры распределения чис- 
ло отсортированных блоков на каждом устройстве равно ІѴ/(РМ ), округленное до 
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ближайшего целого числа в сторону увеличения или 
уменьшения. Если N есть кратное РМ , то все блоки 
имеют размер РМ (в противном случае заключитель- 
ный блок имеет меньший размер). Если N не боль- 
ше РМ , то остается один отсортированный блок (на 
устройстве 0) и на этом сортировка заканчивается. 

В противном случае мы повторяем этот процесс 
и выполняем второй проход многопутевого слияния, 
рассматривая устройства 0, 1,..., Р~ 1 как входные 
устройства, а устройства Р, Р + 1,..., 2 Р— 1 как вы- 
ходные. Мы выполняем Р-путевое слияние с целью 
получить из отсортированных блоков размера РМ , 
посещенных на входных устройствах, блоки разме- 
ром Р 2 М с последующим их размещением на выход- 
ных устройствах. Сортировка заканчивается по за- 
вершении второго прохода (результат находится на 
устройстве Р), если N не больше Р*М. 

Продолжая таким образом, перемещаясь между 
устройствами от 0 до Р, с одной стороны, и между 
устройствами от Р— 1 до 2Р — 1, с другой, мы увели- 
чиваем размер блоков в Р раз при помощи Р-путево- 
го слияния, пока в конечном итоге не получил один 
блок на устройстве 0 или на устройстве Р. Заверша- 
ющее слияние на каждом проходе может не быть Р- 
путевым слиянием в полном смысле этого термина, 
но если это так, то оно хорошо сбалансировано. 

Рисунок 11.13 служит иллюстрацией этого процес- 
са, для чего используются только количество и отно- 
сительные размеры проходов. Оценку стоимости 
слияния мы получаем, выполняя операции умноже- 
ния, указанные в представленной на рисунке табли- 
це, суммируя результаты (без учета нижней строки) 
и деля сумму на число отрезков исходного файла. 
Эти вычисления выражают издержки через число про- 
ходов по данным. 



15*1 

2*3 2*3 1*3 
1*15 


5*1 5*1 5*1 
1*9 1*6 


РИСУНОК 11.13. РАСПРЕДЕЛЕНИЕ 
ПРОХОДОВ В 3-ПУТЕВОМ 
СБАЛАНСИРОВАННОМ СЛИЯНИИ. 

В процессе начального 
распределения трехпутевой 
сбалансированной сортировки- 
слияния файла , размеры которого в 
15 раз превосходят пространство 
оперативной памяти, мы 
размещаем 5 отрезков, размер 
которых в относительных 
единицах равен 1, на устройствах 
4, 5 и 6, при этом устройства 0, 1 
и 2 остаются незагруженными. На 
первой стадии слияния мы 
помещаем отрезки размера 3 на 
устройства 0 и 1 и один отрезок 
размера 3 на устройство 2, 
оставляя устройства 3, 4 и 5 
незагруженными. Далее вы 
выполняем слияние отрезков , 
находящихся на устройствах 0, 1 и 
2, и снова отправляем результаты 
на устройства 3, 4 и 5 и так далее, 
продолжая процесс до тех пор, 
пока останется только один 
отрезок на устройстве 0. Общее 
число обработанных таким 
образом записей равно 60: четыре 
прохода по 15 записям. 


Чтобы выполнить Р- путевое слияние, мы можем воспользоваться очередью по 
приоритетам размером Р. Мы хотим постоянно иметь на выходе наименьший эле- 


мент из числа тех, которые еще не поступали на выход, из каждого из Р отсортиро- 
ванных блоков, подлежащих слиянию, с последующей заменой каждого элемента на 
выходе следующим элементом из того же блока. Чтобы завершить эту процедуру, мы 
отслеживаем индексы устройств с помощью операции орега1ог<, считывающей значе- 
ние ключа следующей записи, которая должна быть считана с указанного устройства 
(и порождающей служебную метку, которая превосходит по значению все ключи за- 
писей по достижении конца блока). Само слияние представляет собой простой цикл, 
который считывает очередную запись с устройства, имеющего минимальный ключ, и 
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передает эту запись на выход, после чего заменяет эту запись в очереди по приори- 
тетам на следующую запись с того же устройства, продолжая такую последователь- 
ность действий до тех пор, пока служебная метка не станет наименьшей в очереди по 
приоритетам. Мы можем воспользоваться реализацией сортирующего дерева, чтобы 
сделать время выполнения для очереди по приоритетам пропорциональным Іо&Р, но 
обычно Р так мало, что эти затраты кажутся ничтожными по сравнению с операци- 
ей записи на внешнее устройство. В нашей абстрактной модели мы игнорируем зат- 
раты на содержание очереди по приоритетам и предполагаем, что в нашем распоря- 
жении имеется эффективный метод последовательного доступа к данным на внешних 
устройствах, благодаря чему мы можем измерять время выполнения путем подсчета 
числа проходов по данным. На практике мы можем воспользоваться элементарной 
реализацией очереди по приоритетам и сосредоточить все наши усилия на создании 
программ, обеспечивающих максимально возможную производительность внешних 
устройств. 

Лемма 11.4. При наличии 2 Р внешних устройств и оперативной памяти, достаточной 
для размещения М записей, сортировка- слияние, в основу которой положено Р-путевое 
сбалансированное слияние, требует выполнения 1 + Г 1о§/> (А Г /М) \ проходов. 

Один проход нужен для распределения. Если N = МР к , то блоки получают размер 
МР после первого слияния, МР 2 после второго, МР Ъ после третьего и т.д. Сорти- 
ровка заканчивается после того, как будут выполнены к = 1о§/> (Ы/М) проходов. В 
противном случае, если имеет место условие М Рк ~ 1 < N < М Рк , эффект неполных 
и пустых блоков приводит к появлению различий в размерах блоков ближе к концу 
процесса, тем не менее, он завершится после выполнения к = Гіо§/>(7Ѵ/М)1 прохо- 
дов. 

Например, если мы хотим отсортировать 1 миллиард записей, имея для этой цели 
шесть внешних устройств и оперативную память, позволяющую разместить 1 милли- 
он записей, мы можем решить эту задачу через трехпутевую сортировку-слияние, 
выполнив в общем целом восемь проходов по данным — один проход для начального 
распределения и Гіо § 3 1000І = 7 проходов слияния. После выполнения прохода на- 
чального распределения мы получим отсортированные блоки данных, содержащие по 
1 миллиону записей, 3 миллиона записей в каждом блоке после первого слияния, 9 
миллионов записей в каждом блоке после второго слияния, 27 миллионов записей в 
каждом блоке после третьего слияния и т.д. Можно подсчитать, что на сортировку 
файла уходит в 9 раз больше времени, чем на то, чтобы просто получить его копию. 

Наиболее важное решение, которое приходится принимать на практике в процессе 
сортировки-слияния — это выбор значения Р , т.е. порядка слияния. В условиях ис- 
пользуемой нами абстрактной модели последовательный метод доступа накладыва- 
ет на нас определенные ограничения, откуда следует, что Р должно быть равно по- 
ловине числа доступных для нас внешних устройств. Такая модель реалистична для 
многих внешних запоминающих устройств. Если всего лишь небольшое число вне- 
шних устройств может быть использовано для сортировки, неизбежным становится 
использование методов доступа, отличных от последовательных. В таких случаях мы 
все еще имеем возможность использовать многопутевое слияние, но при этом дол- 
жны учитывать определенную зависимость, заключающуюся в том, что увеличение 
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значения Р приводит к уменьшению числа проходов, но в то же время увеличивает 
количество операций (медленных) непоследовательного доступа. 

Упражнения 

о 11.35. Показать, как ключи ЕА8Ѵ<ЗЕІЕ8ТІОІЧ\ѴІТНРЬЕІЧТѴОГ 
К Е У 8 сортируются посредством 3-путевого сбалансированного слияния в сти- 
ле примера, представленного на рис. 11.12. 

о 11.36. Как отразится на числе проходов многопутевого слияния тот факт, что чис- 
ло используемых для слияния внешних устройств удвоилось? 

>11.37. Как отразится на числе проходов многопутевого слияния тот факт, что мы 
увеличили в 10 раз объем доступного пространства оперативной памяти? 

• 11.38. Разработать интерфейс для внешнего ввода и вывода, который предусмат- 
ривает последовательную передачу блоков данных с внешних устройств, работа- 
ющих асинхронно (или детально изучить существующий в вашей системе). Исполь- 
зовать этот интерфейс для реализации /^-путевого слияния, при этом Р есть 
максимально возможное в конкретных обстоятельствах, но Р входных файлов и 
выходной файл должны размещаться на различных выходных устройствах. Срав- 
ните время выполнения полученной программы с временем, необходимым для 
копирования файлов на выходные устройства, один за другим. 

• 11.39. Используйте интерфейс из упражнения 11.38 при написании программы за- 
мены порядка на обратный для файла максимально допустимого в вашей систе- 
ме размера. 

• 11.40. Как вы будете выполнять идеальное тасование всех записей на внешнем ус- 
тройстве? 

• 11.41. Разработать стоимостную модель многопутевого слияния, которая охваты- 
вает алгоритмы, способные переключаться с одного файла на другой на одном и 
том же устройстве с постоянной стоимостью переключения, которая намного пре- 
вышает стоимость последовательного чтения. 

•• 11.42. Разработать подход к внешней сортировке, который основан на разделе- 
нии, подобном используемому в быстрой сортировке или в поразрядной сортиров- 
ке М$Э (сначала по старшей цифре), проанализировать его и сравнить с много- 
путевой сортировкой. Вы можете перейти на более высокий уровень абстракции, 
использованный при описании сортировки-слияния в этом разделе, однако вы дол- 
жны стремиться к тому, чтобы быть способными спрогнозировать время выпол- 
нения для заданного числа устройств и заданного объема оперативной памяти. 

11.43 Как вы будете сортировать содержимое внешнего устройства, если любые 
другие внешние устройства недоступны для использования (можно пользоваться 
только оперативной памятью)? 

11.44. Как вы будете сортировать содержимое внешнего устройства, если для ис- 
пользования доступно всего лишь еще одно устройство (а также оперативная па- 
мять)? 
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11.4. Различные реализации 

сортировки-слияния 

Общая стратегия сортировки-слияния, описанная в разде- 
ле 11.13, доказала свою эффективность на практике. В этом 
разделе мы рассмотрим два усовершенствования этой стра- 
тегии, позволяющих снизить объем затрат. Первое из них, 
метод выбора с замещением ( геріасетепі зеіесііоп ), оказывает на 
время выполнения тот же эффект, что и объем пространства 
используемой оперативной памяти; следующий метод, много- 
фазное слияние (роІурНазе тег§іп§), обеспечивает тот же эф- 
фект, что и увеличение числа используемых нами устройств. 

В разделе 11.3 мы обсуждали применение очереди по при- 
оритетам для Р-путевого слияния, но при этом делали ого- 
ворку, что Р настолько мало, что усовершенствование алго- 
ритма с целью повышения быстродействия фактически 
незаметны. Тем не менее, во время начального распределе- 
ния мы можем воспользоваться быстрыми очередями по при- 
оритетам, чтобы получить отсортированные отрезки файлов, 
размеры которых не позволяют размещать их в оперативной 
памяти. Идея заключается в том, чтобы пропустить (неупоря- 
доченные) входные данные через очередь по приоритетам 
больших размеров, как и раньше, записывая в очередь по 
приоритетам наименьший элемент, постоянно заменяя его 
следующим элементом со входа с одним дополнительным 
условием: если новый элемент меньше, чем только что по- 
явившийся на выходе, то поскольку он может и не стать ча- 
стью текущего сортируемого блока, мы маркируем его как 
принадлежащий следующему блоку и считаем, что он боль- 
ше всех остальных элементов текущего блока. Когда марки- 
рованный элемент поднимается в вершину очереди по при- 
оритетам, мы начинаем новый блок. На рис. 11.14 этот 
метод показан в действии. 

Лемма 11.5. В случае произвольных ключей размеры блоков 
данных полученных посредством выборки с замещением , в два 
раза превосходят размер сортирующего дерева. 

Если мы воспользуемся пирамидальной сортировкой для 
получения исходных блоков данных, мы заполним запи- 
сями всю оперативную память; в этом случае нужно вы- 
водить их из памяти одну за одной до тех пор, пока сор- 
тирующее дерево не опустеет. После этого мы заполняем 
оперативную память очередным пакетом записей и про- 
должаем этот процесс снова и снова. В среднем сортиру- 
ющее дерево занимает во время выполнения этого про- 
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цесса только половину пространства оперативной памяти. В противоположность 
этому, выборка с замещением сохраняет эту же структуру в оперативной памяти, 
так что не следует удивляться тому, что ее эффективность в два раза выше. Пол- 
ное доказательство этой леммы требует полного и разностороннего анализа (см. 
раздел ссылок ), хотя это утверждение нетрудно проверить экспериментальным пу- 
тем (см. упражнение 11.47). 

Что касается файлов с произвольной организацией, то практический результат 
применения выборки с замещением, по-видимому, состоит в уменьшения числа про- 
ходов на 1: вместо того, чтобы начинать с отсортированных блоков данных, размер 
которых примерно равен объему пространства оперативной памяти, мы для начала 
можем использовать отрезки в два раза большего объема пространства оперативной 
памяти. Для Р = 2 такая стратегия экономит точно один проход слияния, для значе- 
ний Р больше 2 полученный эффект несколько скромнее. Тем не менее, мы знаем, 
что на практике сортировка файлов с произвольной организацией случается довольно 
редко, и если ключи упорядочены в той или иной степени, то в условиях использо- 
вания метода выборки с замещением можно получать отрезки огромных размеров. 
Например, если ни Одному из ключей не предшествуют в файле более М ключей, пре- 
восходящих его по значению, то этот файл может быть полностью отсортирован за 
один проход выборки с замещением, и при этом никакое слияние не понадобится! 
Эта возможность служит наиболее веским аргументом в пользу практического при- 
менения выборки с замещением. 

Большим недостатком сбалансированной многопутевой сортировки является тот 
факт, что примерно только половина внешних устройств активно используется во 
время выполнения процедур слияния: Р входных устройств и устройство, используе- 
мое для накопления выхода. Альтернативой этому остается выполнение (2 Р— 1)-пу- 
тевых сортировок с передачей выхода на устройство 0, с последующим распределе- 
нием данных на другие магнитные ленты в конце каждого прохода слияния. Но этот 
подход не превосходит первый по эффективности, поскольку он удваивает количе- 
ство проходов, что обусловлено необходимостью распределения данных. Сбаланси- 
рованное многопутевое слияние, по-видимому, потребует либо дополнительного числа 
лентопротяжных устройств, либо выполнения дополнительных операций копирова- 
ния. Разработаны несколько хитроумных алгоритмов, которые обеспечивают заня- 
тость всех внешних устройств за счет замены устройства, на котором производится 
слияние отсортированных блоков данных небольших размеров. Простейший из этих 
методов получил название многофазное слияние (роіурказе тег§іп§) . 

Основополагающая идея многофазного слияния заключается в том, чтобы распре- 
делять отсортированные блоки, полученные в результате выполнения выборки с за- 
мещением на доступные лентопротяжные устройства с определенной степенью не- 
равномерности (оставляя одно устройство пустым) с последующим применением 
стратегии "сливать до опустошения " (тег%е-ипііІ-етріу)\ поскольку сливаемые ленты 
неодинаковы по длине, одна из них будет исчерпана раньше остальных, после чего 
она может быть использована как выходная. То есть, мы меняем ролями выходную 
ленту (теперь на ней размещены несколько отсортированных блоков) и пустую к 
этому моменту входную ленту, продолжая этот процесс до тех пор, пока останется 
только один блок. На рис. 11.15 показан соответствующий пример. 
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РИСУНОК 11.15. ПРИМЕР МНОГОФАЗНОГО СЛИЯНИЯ 

На стадии начального распределения мы размещаем различное число отрезков на лентах в 
соответствии с заранее определенной схемой , а не по принципу поддержания сбалансированного числа 
отрезков на лентах , как это имело место в случае на рис. 11.12. Затем мы выполняем трехпутевые 
слияния на каждой фазе , пока сортировка не будет завершена. В этом случае число фаз больше, чем в 
условиях сбалансированного слияния, но эти фазы не выполняются на всей совокупности данных. 

Стратегия "сливать до опустошения" работает на произвольном числе магнитных 
лент, как показано на рис. 11.16. Слияние разбивается на множество фаз , и не каж- 
дая из них выполняется на всей совокупности данных, зато ни на одной из них не 
надо выполнять дополнительного копирования. На рис. 11.16 показано, как произ- 
водится вычисление отрезков для начального распределения. Мы подсчитываем число 
отрезков на каждом устройстве, рассуждая в обратном порядке. 

В случае примера, представленного на рис. 11.16, мы ставим перед собой Следую- 
щую задачу: мы хотим закончить слияние с 1 отрезком на устройстве 0. Следователь- 
но, перед последним слиянием устройство 0 должно быть незагруженным, а на уст- 
ройствах 1, 2 и 3 должны находиться по одному отрезку. Далее, мы определяем, 
каким должно быть распределение отрезков, которое потребуется для выполнения 
предпоследнего слияния, чтобы получить требуемое распределение. Одно из устройств 
1, 2 или 3 должно быть пустым (чтобы его можно было использовать в качестве вы- 
ходного устройства для предпоследнего слияния) — произвольно выбираем для этой 
цели устройство 3. Иначе говоря, предпоследнее слияние сливает по одному отрез- 
ку с каждого устройства 0, 1 и 2 и помещает результат на устройство 3. Поскольку 
предпоследнее слияние оставляет 0 отрезков на устройствах 0 и 1, оно должно на- 
чинаться с одного отрезка на устройстве 0 и двух отрезков на каждом из устройств 
1 и 2. Аналогичные рассуждения приводят нас к заключению, что слияние, предше- 
ствующее только что рассмотренному, должно начинаться с того, что на устройствах 
3, 0 и 1 должно быть, соответственно, 2, 3 и 4 отрезка. Продолжая в том же духе, мы 
можем построить таблицу распределения отрезков: выбираем максимальное число из 
каждого ряда, заменяем его нулем и добавляем его к каждому из оставшихся чисел, 
чтобы получить предыдущий ряд. Этот прием соответствует определению предыдуще- 
го ряда слияния высшего порядка, которое порождает текущий ряд. Такая техника 
работает с любым количеством магнитных лент (по меньшей мере, с тремя). Возни- 
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кающие при этом числа суть обобщенные числа Фи- 
боначчи, которые обладают множеством интересных 
свойств. Если число отрезком не есть обобщенное 
число Фибоначчи, то мы предполагаем наличие фик- 
тивных отрезков, которые необходимы для заполне- 
ния таблицы. Основная трудность в реализации мно- 
гофазного слияния состоит в определении отрезков 
для начального распределения (см. упражнение 
11.54). 

Имея в своем распоряжении распределение от- 
резков, мы, применяя прямой ход рассуждений, 
можем вычислить их относительные размеры, 
фиксируя размеры после очередного слияния. На- 
пример, первое слияние в примере на рис. 11.16 
порождает 4 отрезка размером в 3 относительных 
единицы на устройстве 0, два отрезка размером 1 
на устройстве 2 и 1 отрезок размера 1 на устрой- 
стве 3 и т.д. Как и в случае сбалансированного 
многопутевого слияния, мы можем проделать ука- 
занные операции умножения, просуммировать 
результаты (не включая нижнюю строку) и поде- 
лить на число начальных отрезков, чтобы вычис- 
лить меру стоимости в виде числа, кратного сто- 
имости полного прохода по всей совокупности 
данных. Для простоты вычислений мы включаем 
фиктивные отрезки в расчет затрат, который дает 
нам верхнюю границу истинной стоимости. 

Лемма 11.6. При наличии трех внешних уст- 
ройств и пространства оперативной памяти , до- 
статочного для размещения М записей, сортиров- 
ка-слияние , в основу которой положена операция 
выборки с замещением с последующим двухпуте- 
вым многофазным слиянием, выполняет в среднем 
1 + Г Іо ( ДУ М) 1 / ф эффективных проходов. 
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РИСУНОК 11.16. РАСПРЕДЕЛЕНИЕ 
ОТРЕЗКОВ ДЛЯ МНОГОФАЗНОГО 
ТРЕХПУТЕВОГО СЛИЯНИЯ 

В процессе начального распределения 
многофазного трехпутевого слияния 
файла , размеры которого в 17 раз 
превосходят объем пространства 
оперативной памяти, мы помещаем 
семь отрезков на устройство О, 
четыре отрезка на устройство 2 и 
шестъ отрезков на устройство 3. 
Затем , на первой фазе мы выполняем 
слияния до тех пор , пока устройство 
2 не станет пустым , при этом три 
отрезка размером 1 остаются на 
устройстве 0, два отрезка размером 
1 на устройстве 3, и создаем четыре 
отрезка размером 3 на устройстве 1. 
Для файла, в 15 раз превышающего по 
размерам оперативную память , мы 
вначале помещаем два фиктивных 
отрезка на устройство 0 (см. рис. 

1 1. 15). Общее число блоков , 
подвергнутых обработки в процессе 
полного слияния , равно 59, на один 
меньше, чем в примере, 
иллюстрирующем сбалансированное 
слияние (см. рис. 11. 13), но при этом 
мы используем на 2 устройства 
меньше ( см. упражнение 1 1. 50). 


Общий анализ многофазной сортировки, выполненный Кнутом (Кпиііі) и други- 
ми исследователями в шестидесятых-семидесятых годах, — сложное и пространное 
исследование, выходящее за рамки данной книги. Для Р = 3 используются числа 
Фибоначчи, отсюда и появление коэффициента ф. Другие константы появляются 
для Р больше 3. Коэффициент 1/0 используется в случае, когда на каждой фазе 
используется именно эта часть данных. Мы подсчитываем число "эффективных 
проходов” как количество считанных данных, деленных на общее количество дан- 
ных. Некоторые результаты общего анализа вызывают удивление. Например, оп- 
тимальный метод распределения фиктивных отрезков по магнитным лентам пре- 
дусматривает использование дополнительных фаз и большего числа фиктивных 
отрезков, чем можно бы было предположить, поскольку некоторые отрезки ис- 
пользуются в слияниях намного чаше других (см. раздел ссылок ). 
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Например, если мы хотим отсортировать 1 мил- 
лиард записей, используя для этой цели 3 устройства 
и пространство оперативной памяти, достаточное 
для размещения 1 миллиона записей, мы можем сде- 
лать это посредством двухпутевого многофазного 
слияния с [\о$ф500]/ф = 8 проходами. Добавив про- 
ход начального распределения, мы получаем не- 
сколько большие затраты (один проход), чем в слу- 
чае сбалансированного слияния, которое использует 
в два раза большее число устройств. То есть, мы мо- 
жем рассматривать многофазное слияние как про- 
цедуру, позволяющую выполнять ту же работу, но с 
половиной аппаратных средств. Для заданного коли- 
чества устройств многофазное слияние всегда обес- 
печивает большую эффективность, чем сбалансиро- 
ванная сортировка, о чем свидетельствует рис. 11.17. 

Как мы уже отмечали в начале раздела 11.3, тот 
факт, что мы сосредоточили свое внимание на изу- 
чении абстрактной машины с последовательным до- 
ступом к внешним устройствам, позволяет отделить 
проблемы, связанные с разработкой алгоритмов, от 
проблем их использования на практике. При разра- 
ботке практических приложений нам необходимо 
проверить основные предположения и позаботиться 
о том, чтобы они всегда соблюдались. Например, мы 
зависим от эффективной реализации функций вво- 
да-вывода, которые передают данные между про- 



РИСУНОК 11.17. СРАВНЕНИЕ 
ЗАТРАТ НА СБАЛАНСИРОВАННОЕ 
И МНОГОФАЗНОЕ СЛИЯНИЕ 

Число проходов, выполняемых в 
рамках сбалансированного слияния 
на четырех магнитных лентах 
(сверху), всегда больше, чем число 
эффективных проходов, 
выполняемых в рамках 
многофазного слияния с тремя 
магнитными лентами (внизу). 
Представленные на рисунке 
графики получены для функций, 
обладающих свойствами из лемм 
11.4 и 11.6, для И/Мот 1 до 100. 
В силу наличия фиктивных 
отрезков истинные 
характеристики многофазного 
слияния имеют более сложный 
характер, чем следует из 
представленной шаговой функции. 


цессором, внешними устройствами и системными 

программными средствами. В общем случае в современных системах используются 


хорошо отлаженные реализации таких программных средств. 

Принимая эту крайнюю точку зрения, заметим, что многие из современных вы- 
числительных систем располагают возможностью виртуальной памяти (ѵігГиаІ тетогу) 
— более абстрактная модель доступа к внешним устройствам, чем та, которая исполь- 
зовалась до сих пор. В виртуальной памяти мы получаем возможность обращаться к 
крупным блокам данных, содержащим большое количество записей, полагаясь на 
систему в вопросе гарантированной доставки адресуемых данных с внешних запоми- 
нающих устройств в оперативную память, когда нам это нужно; при этом возника- 
ет впечатление, что доступ к данным в смысле удобства ничем не отличается от пря- 
мого доступа к данным, находящимся в оперативной памяти. Однако эта иллюзия не 
совсем полная: пока программа обращается к ячейкам памяти, расположенных в от- 
носительной близости по отношению к ячейкам, к которым она недавно обращалась, 
то потребность в передаче данных с внешних устройств в оперативную память воз- 
никает нечасто и рабочие характеристики внешней памяти вполне удовлетворитель- 
ны. (Например, программы, которые осуществляют последовательный доступ к дан- 



Часть 3. Сортировка 


ным, попадают в эту категорию.) Но если данные, к которым производится доступ, 
разбросаны в разных местах крупного файла, то система виртуальной памяти начнет 
испытывать перегруз ( іНгазН ), затрачивая все свое время на доступ к данным во внеш- 
ней памяти, результаты которого будут катастрофическими. 

Не следует игнорировать виртуальную память как возможную альтернативу сор- 
тировки-слияния очень крупных файлов. Мы могли бы получить программную реа- 
лизацию сортировки-слияния непосредственно, или что еще проще, могли бы вос- 
пользоваться методами внутренней сортировки, такими как быстрая сортировка или 
сортировка слиянием. Эти методы внутренней сортировки заслуживают нашего при- 
стального внимания в надежно работающей среде виртуальной памяти. Такие мето- 
ды как пирамидальная сортировка или поразрядная сортировка в условиях, когда 
адреса ссылок находятся в разных концах оперативной памяти, по всей видимости, 
не подойдут из-за перезгруза. 

С другой стороны, использование виртуальной памяти может привести к недопу- 
стимым непроизводительным затратам системных ресурсов, так что расчет на соб- 
ственные явные методы (подобные тем, которые рассматривались выше) может ока- 
заться наилучшим способом получить максимум от высокопроизводительных внешних 
запоминающих устройств. Одна из основных характеристик изученных выше мето- 
дов заключается в том, что они разрабатывались с расчетом, чтобы максимально воз- 
можное число независимых частей компьютерной системы работало с максимальной 
эффективностью и ни одна из частей при этом не простаивала. Когда в качестве по- 
добных независимых частей рассматривать процессоры, мы приходим к идее парал- 
лельных вычислений, которая рассматривается в разделе 11.5. 

Упражнения 

> 11.45. Показать, какие отрезки порождаются методом выборки с замещением с 
очередью по приоритетам размером 4, примененным к ключам ЕА8У0ОІІЕ 
8 Т I О N. 

о 11.46. Как отражается использование метода выборки с замещением на файле, ко- 
торый был порожден посредством применения метода выборки с замещением к 
заданному файлу? 

• 11.47. Эмпирически определить среднее число отрезков, порожденных посред- 
ством применения метода выборки с замещением с очередью по приоритетам раз- 
мером 10000 к файлам с произвольной организацией при N — 10 3 , ІО 4 , 10 5 и ІО 6 . 

11.48. Каким будет число отрезков в худшем случае при использовании метода вы- 
борки с замещением для генерации отрезков начального распределения для фай- 
ла, содержащего N записей, с использованием очереди по приоритетам размером 
Л/, при М < N1 

> 11.49. Показать, как выполняется сортировка ключей Е А 8 У О II Е 8 Т I О N 
\VIТНР^ЕNТУОРКЕУ8в результате применения многофазного слия- 
ния в стиле примера, показанного на диаграмме рис. 11.15. 

о 11.50. В примере многофазного слияния на рис. 11.15 мы поместили два фиктив- 
ных отрезка на магнитную ленту с 7 отрезками. Найдите другие способы распре- 
деления фиктивных отрезков на лентах и выберите среди них такой, который 
обеспечивает минимальное по стоимости слияние. 
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11.51. Начертить таблицу, соответствующую рцс. 11.13, с целью определить мак- 
симальное число отрезков, которые могут быть слиты с помощью сбалансирован- 
ного трехпутевого слияния с пятью проходами по данным (с использованием ше- 
сти устройств). 

11.52. Начертить таблицу, соответствующую рис. 11.16, с целью определить мак- 
симальное число отрезков, которые могут быть слиты с помощью метода много- 
фазного слияния с теми же затратами, что и пять проходов по всей совокупности 
данных (с использованием шести устройств). 

о 11.53. Напишите программу, вычисляющую число проходов, выполняемых мно- 
гофазным слиянием, и эффективное количество проходов, выполняемых методом 
многофазного слйяния для заданного числа устройств и заданного числа началь- 
ных блоков. Используйте эту программу для распечатки таблицы этих затрат для 
каждого метода для Р= 3, 4, 5, 10 и 100 иі\^= ІО 3 , ІО 4 , ІО 5 и ІО 6 . 

•• 10.54. Напишите программу, последовательно назначающую начальные отрезки 
устройствам в условиях Р-путевого многофазного слияния. Всякий раз, когда число 
отрезков есть обобщенное число Фибоначчи, отрезки должны быть назначены ус- 
тройствам в соответствии с требованиями алгоритма; ваша задача заключается в 
том, чтобы отыскать удобный способ распределения отрезков по одному за еди- 
ницу времени. 

• 11.55. Реализовать выборку с замещением, воспользовавшись интефейсом, опре- 
деленным в упражнении 11.38. 

•• 11.56. Чтобы получить программную реализацию сортировки-слияния, используй- 
те сочетание решений упражнений 11.38 и 11.55. Используйте полученную про- 
грамму для сортировки файла максимально возможных в вашей системе разме- 
ров, воспользовавшись многофазным слиянием. Если возможно, определите как 
отражается на времени выполнения программы увеличение числа устройств. 

11.57. Как нужно обходиться с файлами небольших размеров в рамках реализа- 
ции быстрой сортировки применительно к файлу сверхбольших размеров в среде 
виртуальной памяти? 

• 11.58. Если на вашем компьютере функционирует подходящая система виртуаль- 
ной памяти, выполните эмпирическое сравнение быстрой сортировки, поразряд- 
ной сортировки М80, поразрядной сортировки и пирамидальной сортиров- 
ки для сверхбольшого файла. Выберите файл максимально возможных в вашей 
системе размеров. 

• 11.59. Разработать программную реализацию рекурсивной многопутевой сорти- 
ровки слиянием, в основу которой положено Аг-путевое слияние, которую можно 
использовать для сортировки сверхбольших файлов в среде виртуальной памяти 
(см. упражнение 8.11). 

• 11.60. Если на вашем компьютере функционирует подходящая система виртуаль- 
ной памяти, эмпирически определите значение, при котором достигается мини- 
мальное время выполнения программной реализации из упражнения 11.59. Выбе- 
рите файл максимально возможных в вашей системе размеров. 
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11.5. Параллельная процедура 

сортировки-слияния 

Как сделать так, чтобы несколько независимых процессоров работали совместно, 
решая одну задачу сортировки? Управляют ли процессоры внешними запоминающи- 
ми устройствами или сами являются самостоятельными вычислительными 
системами — от этого во многом зависит алгоритм функционирования высокопро- 
изводительных вычислительных систем. Проблема параллельных вычислений в пос- 
леднее время широко изучается. Разработано множество типов вычислительных ма- 
шин параллельного действия, предложены разнообразные модели параллельных 
вычислений. Во всех этих случаях проблема сортировки выступает как эффективное 
средство тестирования и того, и другого. 

Мы уже рассматривали вопросы параллельной обработки данных низкого уров- 
ня в процессе изучения сетей сортировки в разделе 11.2, когда обсуждали возмож- 
ность одновременного выполнения нескольких операций сравнения-обмена. Сейчас 
мы рассмотрим модель параллельных вычислений высокого уровня с использовани- 
ем независимых универсальных процессоров (а не только компараторов), имеющих 
доступ к одним и тем же данным. И в этом случае мы игнорируем многие практи- 
ческие проблемы, зато можем проводить исследования алгоритмов в данном контек- 
сте. 

Абстрактная модель, которую мы используем для представления параллельной 
обработки данных, базируется на предположении, что сортируемые файлы распреде- 
ляются между независимыми процессорами. Мы полагаем, что имеются 

■ Дозаписей, подлежащих сортировке 

■ Р процессоров, способных принять (А/Р) записей. 

Мы присваиваем этим процессорам метки 0, 1, ..., Р— Іи полагаем, что файл, ко- 
торый служит входом, помещен в память локальных процессоров (то есть, в каждом 
процессоре содержатся А/Р записей). Цель сортировки заключается в переупорядоче- 
нии записей таким образом, чтобы А /Р наименьших записей находились в памяти 
процессора О, А /Р следующих наименьших записей находились в памяти процессора 
1 и так далее, в отсортированном порядке. Как мы увидим далее, существует зави- 
симость между Р и общим временем выполнения — мы хотим получить количествен- 
ную оценку этой зависимости с целью сравнения различных стратегий. 

Предлагаемая модель — одна из многих возможных моделей параллельной обра- 
ботки данных и для нее характерны многие из упрощений в смысле практического 
применения, какие имеют место в предложенной нами модели внешней сортировки 
(раздел 11.3). И в самом деле, рассматриваемая модель не учитывает одну из наибо- 
лее важных проблем, которая весьма актуальна для параллельной обработки данных: 
ограничения, которые накладываются на обмен данными между процессорами. 

Мы полагаем, что стоимость такого обмена данных гораздо выше, чем обраще- 
ния к локальной памяти, и что наибольшая эффективность достигается в тех случа- 
ях, когда такой обмен осуществляется последовательно, большими блоками данных. 
В этом смысле каждый процессор рассматривает остальные процессоры как внешние 
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запоминающие устройства. И на сей раз, эту модель с высоким уровнем абстракции 
можно рассматривать как неудовлетворительную в плане практического применения 
ввиду ее чрезмерной упрощенности; ее также можно считать неудовлетворительной 
и с теоретической точки зрения, поскольку ей не хватает полноты определения. Но 
несмотря на все это, она представляет собой структуру, в рамках которой возможна 
разработка полезных алгоритмов. 

И в самом деле, рассматриваемая задача (с учетом сделанных выше предположе- 
ний) представляет собой пример могущества абстрагирования, ибо мы для ее реше- 
ния можем воспользоваться сетями сортировки, которые изучались в разделе 11.2, 
внеся соответствующие изменения в абстракцию сортировки-слияния, которые делают 
ее пригодной для работы с большими блоками данных. 

Определение 11.2. Компаратор слияния принимает на входе два отсортированных 
файла размером М и выдает на выход два отсортированных файла: один из них содер- 
жит М-й наименьший из 2 М входных элементов , а другой содержит М-й наибольший 
из 2 М входных элементов. 

Эту операцию нетрудно реализовать: производится слияние двух входных файлов, 
затем на выход передаются первая половина и вторая половина файла, полученно- 
го в результате слияния. 

Лемма 11.7. Мы можем выполнить сортировку файла размером /V, поделив его на М/М 
блоков размером М с последующей сортировкой каждого файла , после чего используем 
сеть сортировки со встроенными в нее компараторами. 

Чтобы установить этот факт, взяв за основу принцип нулей и единиц, требуются 
проявить определенную изобретательность (см. упражнение 11.61), однако изуче- 
ние примера, подобного представленному на рис. 11.18, позволит убедиться в пра- 
вильности этого утверждения. 

Будем называть метод, описываемый леммой 11.7, поблочной сортировкой (Ыоск 
зогПпр). Но прежде чем использовать этом метод на конкретной машине, необходи- 
мо выбрать значения некоторых параметров модели. Наш интерес к этому методу 
обусловлен следующей рабочей характеристикой: 

Лемма 11.8. Поблочная сортировка на Р процессорах с использованием сортировки Бэт- 
чера с компараторами слияния может выполнить сортировку N записей примерно за 
{\%Р) 2 /2 параллельных шагов. 

Под параллельными шагами (рагаііеі зіерз) в данном контексте мы понимаем неко- 
торую совокупность раздельных компараторов. Лемма 11.8 является прямым след- 
ствием лемм 11.3 и 11.7. 

Чтобы реализовать компаратор слияния на двух процессорах, мы должны сделать 
так, чтобы оба они в процессе обмена копиями хранящихся в них блоков данных 
выполняли слияние (параллельно), при этом на одном из них оставалась половина с 
меньшими значениями ключей, а на другом — половина с большими значениями 
ключей. Если передача блоков происходит медленно по сравнению с быстродействием 
конкретного процессора, мы можем вычислить общее время, необходимое для сор- 
тировки, умножая стоимость передачи одного блока на (\%Р) 2 /2. Такая оценка пред- 
полагает принятие большого числа предположений, например, предполагается, что 
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передача многочисленных блоков данных производится параллельно, без затрат, что 
довольно редко имеет место в реальных компьютерах параллельного действия. Не- 
смотря на все это, она представляет собой отправную точку для понимания того, что 
можно ожидать от практической реализации. 

Если стоимость передачи блока данных определяется быстродействием отдельно- 
го процессора (еще одна идеальная цель, к которой можно только приблизиться на 
реальных машинах), то мы должны принимать в расчет время, затрачиваемое на на- 
чальную сортировку. Каждый процессор выполняет (М/Р) Х^/М/Р) сравнений (парал- 
лельно), чтобы выполнить начальную сортировку М/Р блоков, и примерно Р 2 (\&Р)/2 
этапов слияния типа ( М/Р)-с-{Ы/Р ). Если стоимость сравнения — а, а стоимость сли- 
яния на одну запись составляет (3, общее время выполнения приблизительно равно 

а (ад 1 8 (ад + р (ад /*(і & Р) / 2. 

Для сверхбольших N и малых Р этот показатель — лучшее из того, на что можно 
рассчитывать в условиях метода параллельной сортировки, основанной на сравнении, 
поскольку в этом случае стоимость составляет а(М\^М)/Р , которую можно считать 
оптимальной: любая сортировка требует М\%М сравнений и самое лучшее, что можно 
предпринять в этом случае — сделать Р из них одновременно. В случае больших зна- 
чений Р преобладает второе слагаемое и стоимость приближается к значению 
$М (Р\%Р)/2, которое можно считать субоптимальным, хотя все еще конкурентоспо- 
собным. Например, второе слагаемое составляет 256 (ЗТУ/Р стоимости сортировки 1 
миллиарда элементов на 64 процессорах, в то время как вклад первого слагаемого 
составляет Ъ2о.М/Р. 

Когда значение Р достаточно велико, на некоторых машинах при передаче дан- 
ных могут возникнуть узкие места. Если такое случится, применение идеального та- 
сования, представленного на рис. 11.8, может быть использовано как средство управ- 
ления издержками подобного рода. Именно по этим причинам в некоторых машинах 
имеются встроенные схемы низкоуровневых соединений, которые позволяют эффек- 
тивно реализовать операции тасования. 

Этот пример показывает, что в некоторых случаях можно обеспечить эффектив- 
ную работу процессоров при решении задач сортировки файлов сверхбольших разме- 
ров. Чтобы знать, как это сделать наилучшим образом неизбежно потребуется про- 
анализировать множество различных алгоритмов для данного типа параллельной 
машины и исследовать поведение используемой машины на модели при различных 
значениях ее параметров. Более того, может потребоваться совершенно другой под- 
ход к проблеме параллельной обработки данных. Тем не менее, предположение о 
том, что увеличение числа процессоров приводит к увеличению стоимости обмена 
данными между ними, является основополагающим для параллельных вычислений, а 
сети Бэтчера представляет собой эффективное средство управления такого рода зат- 
ратами, что имеет место как на низком уровне, в чем мы имели возможность убе- 
диться в разделе 11.2, так и на высоком уровне, в чем мы смогли убедиться в насто- 
ящем разделе. 

Методы сортировки, описанные в этом разделе и в других местах данной главы, 
имеют определенные отличия от методов, которые мы изучали на протяжении глав 
6—10, поскольку они предусматривают копирование и наличие ограничений, кото- 
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РИСУНОК 11.18. ПРИМЕР ПОБЛОЧНОЙ СОРТИРОВКИ 

Этот рисунок служит иллюстрацией того факта, что мы можем воспользоваться сетью, 
представленной на рис. 11.14 для сортировки блоков данных. Компараторы помещают выход в виде 
половины элементов с меньшими номерами на верхнюю из двух входных линии, а половину элементов с 
большими номерами — на нижнюю линию. Трех параллельных шагов оказывается достаточно. 


рые не рассматриваются в обычном программировании. В главах 6—10 простых пред- 
положений, касающихся используемых нами данных, было достаточно, чтобы мож- 
но было сравнивать большое число различных методов решения одной и той же ба- 
зовой задачи. В противоположность этому в данной главе мы сосредоточились на 
формулировании различных задач, но имели возможность рассматривать лишь не- 
многие решения каждой из них. Эти примеры служат иллюстрацией того факта, что 
изменения ограничений, налагаемых внешней средой, предоставляют возможности 
для появления новых решений, а наиболее важная часть этого процесса состоит в 
нахождении полезных абстрактных формулировок конкретных задач. 

Сортировка играет исключительно важное значение во многих практических при- 
ложений, и разработка эффективных методов сортировки является одной из главных 
задач, на решение которых должна быть ориентированы архитектура новых компь- 
ютеров и новые среды программирования. Памятуя истину, что новые достижения 
строятся на прошлом опыте, важно получить представление о совокупности техничес- 
ких средств, которые мы обсуждали в главах 6—10, в силу того факта, что появились 
новые революционные изобретения. Абстрактное мышление, которое понадобилось 
при изучении изложенного ранее материала, может оказаться необходимым, если 
вам придется разрабатывать быстродействующие процедуры сортировки для новых 
машин. 

Упражнения 

о 11.61. Воспользуйтесь принципом нулей и единиц (лемма 11.1) для доказательства 
леммы 1 1.7. 

• 11.62. Реализовать последовательную версию поблочной сортировки с нечетно- 
четным слиянием Бэтчера: (/) воспользоваться стандартной сортировкой слияни- 
ем (программы 8.3 и 8.2) для сортировки блоков данных, (//) воспользоваться стан- 
дартным обменным слиянием (программа 8.2) для реализации компараторов 
слияния и (/77) воспользоваться восходящим нечетно-четным слиянием Бэтчера 
(программа 11.3) для сортировки отдельных блоков. 

11.63. Дать оценку время выполнения программы, описанной в упражнении 
1 1.62, как функции от N и М для больших N. 
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• 11 . 64 . Выполнить упражнения 1 1.62 и 11.63, но при этом в обоих случаях замените 
нечетно-четное слияние Бэтчера (программа 11.3) на программу 8.2. 

11 . 65 . Найти значения Р, для которых (Лу/*)^ N = 1ѴР\%Р, для N = ІО 3 , ІО 6 , ІО 9 и 

іо 12 . 

11 . 66 . Найти приближенные выражения вида Сі7Ѵ1§ N + сгЫ для определения числа 
сравнений элементов данных, используемых параллельной поблочной сортиров- 
ки Бэтчера для Р — 1,4, 16, 64 и 256. 

11 . 67 . Сколько параллельных шагов потребуется для сортировки Ш 15 записей, ко- 
торые распределены на 1000 дисков, используя для этой цели 100 процессоров? 

Ссылки на источники к части 3 

Основным источником для ссылок в данном разделе является том 3 многотомной 
монографии Кнута (КпиіЬ), посвященный вопросам сортировки и поиска. Практи- 
чески по каждой теме, которые мы затрагивали до сих пор, в этой книге можно найти 
полезную информацию В частности, все результаты, касающиеся рабочих характери- 
стик различных алгоритмов, которые обсуждались в данной книге, в указанной мо- 
нографии обоснованы исчерпывающим математическим анализом. 

Имеется обширная литература по вопросам сортировки. Опубликованная Кнутом 
и Ривестом (Яіѵезі) в 1973 г. библиография содержит сотни ссылок, благодаря кото- 
рым можно ознакомиться с положением дел в области разработки и совершенство- 
вания множества классических методов, часть из которых была рассмотрена здесь. 
Более поздние ссылки, сопровождаемые обширной библиографией, охватывающей 
последние работы, вы найдете в книге Баеца-Ятца (Ваеха-Уаіез) и Тонне (Ооппеі). 
Обзор состояния наших знаний о сортировке Шелла можно найти в статье Седжви- 
ка ($ас1§еАѵіск) за 1996 г. 

Что касается быстрой сортировки, то наилучшей ссылкой может служить пионер- 
ская статья Хоара (Ноаге), вышедшая в свет в 1962 г., где рассматриваются все наи- 
более важные варианты, которые обсуждались в главе 7. Более подробные детали, 
касающиеся математического анализа и практических применений многих модифи- 
каций и усовершенствований, появившихся уже после того, как этот алгоритм нашел 
широкое применение на практике, можно найти в статье Седжвика, опубликованной 
в 1978 г. Бентли (Вепііу) и Мак-Илрой (МсІІгоу) дали его современную трактовку. 
Материал по трехпутевому разбиению в главе 7 и трехпутевой поразрядной быстрой 
сортировке в главе 10 основан именно на этой статье и статье Бентли и Мак-Илроя, 
появившейся в печати в 1978 г. Первый алгоритм, использующий разбиения (двоич- 
ная быстрая сортировка или поразрядная сортировка с обменами) были опубликова- 
ны в статье Хильдебрандта (НіШеЪгапсН) и Исбитца (ІзЬйг) в 1959 г. 

Структура данных биномиальной очереди Вийемана (ѴиіНегпіп) в том виде, в ка- 
ком она была реализована и исследована Брауном (Вгоѵ/п), поддерживает все опера- 
ции над очередями с приоритетами элегантно и эффективно. Двоичные сортирующие 
деревья, описанные Фредманом (Ргебшап), Седжвиком, Слеатором (Біеаіог) и Тарь- 
яном (Таг]ап), являются усовершенствованиями базового понятия и представляют 
немалый практический интерес. 

В статье, появившейся в 1993 г., Мак-Илрой, Бостик (Возііс) и Мак-Илрой пред- 
ставляют положение дел с реализацией поразрядной сортировки. 
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Таблииы символов и леревья бинарного поиска 

Сбалансированные леревья 

Хеширование 

Поразрялный поиск 

Внешний поиск 



Таблицы символов и 
деревья бинарного 
поиска 

П олучение конкретного фрагмента или фрагментов 
информации из больших томов ранее сохраненных 
данных — основополагающая операция, называемая поис- 
ком , характерная для многих вычислительных задач. Как 
и в случае с алгоритмами сортировки, описанными в гла- 
вах с 6 по 1 1 , и очередями конкретного приоритета, опи- 
санными в главе 9, мы работаем с данными, разделенны- 
ми на записи, или элементы , каждый из которых имеет 
ключ , используемый при поиске. Цель поиска — отыскание 
элементов с ключами, которые соответствуют заданному 
ключу поиска. Обычно, назначением поиска является полу- 
чение доступа к информации внутри элемента (а не про- 
сто к ключу) с целью ее обработки. 

Поиск используется повсеместно и связан с выполне- 
нием множества различных операций. Например, в банке 
требуется отслеживать информацию о счетах всех клиен- 
тов и выполнять поиск в этих записях для подведения ба- 
ланса и выполнения банковских операций. На авиалинии 
необходимо отслеживать количество мест на каждом рейсе 
и выполнять поиск свободных мест, отказа в продаже би- 
летов или внесения каких-либо изменений в списки пас- 
сажиров. Еще один пример — средство поиска в сетевом 
интерфейсе программы, которое отыскивает в сети все 
документы, содержащие заданное ключевое слово. Требо- 
вания, предъявляемые к этим приложениям, в чем-то со- 
впадают (и для банка, и для авиалинии требуются точ- 
ность и надежность), а в чем-то различны (банковские 
данные имеют длительный срок хранения по срарнению 
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с данными остальных упомянутых приложений); тем не менее, во всех случаях тре- 
буются эффективные алгоритмы поиска. 

Определение 12.1 Таблица символов — это структура данных элементов с ключами , 

которая поддерживает две базовых операции: вставку нового элемента и возврат эле- 
мента с заданным ключом. 

Иногда таблицы символов называют также словарями (дісііопагу) , по аналогии с про- 
веренной временем системой предоставления определений слов путем перечисления их 
в справочнике в алфавитном порядке. Так, в словаре английского (или любого друго- 
го) языка "ключи" — это слова, а "элементы" — связанные со словами записи, которые 
содержат определение, правила произношения и другую информацию. Алгоритмы по- 
иска, используемые для отыскания информации в словаре, обычно основываются на 
алфавитном расположении записей. Телефонные книги, энциклопедии и другие спра- 
вочники, в основном, организованы таким же образом, и некоторые из рассматривае- 
мых методов поиска (например, алгоритм бинарного поиска в разделах 2.6 и 12.4), так- 
же основываются на том, что записи упорядочены. 

Таблицы символов в компьютерах обладают преимуществом в том, что они значи- 
тельно более динамичны, чем словарь или телефонная книга. Поэтому большинство 
рассматриваемых методов создают структуры данных, которые не только позволяют 
использовать эффективные алгоритмы поиска, но и поддерживают эффективные реа- 
лизации операций добавления новых элементов, удаления или изменения элементов, 
объединения двух таблиц символов в одну и т.п. В этой главе будут вновь рассматри- 
ваться многие из вопросов, связанных с операциями, которые исследовались примени- 
тельно к очередям по приоритетам в главе 9. Разработка динамических структур дан- 
ных для поддержки поиска — одна из старейших и наиболее широко изученных 
проблем в компьютерных науках; она будет находиться в центре нашего внимания как 
в этой главе, так и в главах 13—16. Как будет показано, для решения задачи реализа- 
ции таблиц символов разработаны (и продолжают разрабатываться) множество ориги- 
нальных алгоритмов. 

Теоретики компьютерных наук и программисты интенсивно исследуют и другие 
применения таблиц символов, кроме упомянутых основных, поскольку эти таблицы — 
незаменимое вспомогательное средство при организации программного обеспечения в 
компьютерных системах. Таблица символов служит словарем для программы: ключи — 
это символические имена, используемые в программе, а элементы содержат информа- 
цию, описывающую именованные объекты. Начиная с зари развития компьютерной 
техники, когда таблицы символов позволяли программистам переходить от использо- 
вания числовых адресов в машинных кодах к символическим именам языка ассембле- 
ра, и завершая современными приложениями нового тысячелетия, когда символичес- 
кие имена имеют определенное значение в рамках всемирных компьютерных сетей, 
быстрые алгоритмы поиска играли и будут играть важную роль при компьютерной об- 
работке. 

Таблицы символов часто встречаются также в абстракциях нижнего уровня, а иногда 
и на аппаратном уровне. Для описания этого понятия иногда используется термин ас- 
социативная память. Мы уделим основное внимание программным реализациям, но 
екоторые из рассматриваемых методов применимы также и к аппаратной реализации. 
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Как и при изучении методов сортировки в главе 6, в этой главе изучение методов 
поиска начинается с рассмотрения ряда элементарных методов, пригодных для не- 
больших таблиц и в некоторых особых ситуациях, и которые иллюстрируют базовые 
технологии, используемые более совершенными методами. Затем, в остальной час- 
ти главы основное внимание уделяется дереву бинарного поиска (Ыпагу зеагсН і гее — 
В5Т), основополагающей и широко используемой структуре данных, допускающей 
применение алгоритмов быстрого поиска. 

В разделе 2.6 в качестве иллюстрации эффективности математического анализа при 
разработке эффективных алгоритмов рассматривались два алгоритма поиска. Для пол- 
ноты изложенного в этой главе материала мы повторим часть информации, приведен- 
ной в главе 2.6; в ряде случаев для ознакомления с некоторыми доказательствами бу- 
дут приводиться ссылки на эту главу. Позже в этой главе мы обратимся также к 
основным свойствам двоичных деревьев, которые исследуются в разделах 5.4 и 5.5. 

12.1 Абстрактный тип данных таблицы символов 

Как и при рассмотрении очередей приоритета, алгоритмы поиска можно рассматри- 
вать как принадлежащие к интерфейсам, объявляющим множество общих операций, 
которые могут быть отделены от конкретных реализаций, что позволяет легко и про- 
сто заменять одни реализации другими. Интерес представляют следующие операции: 

■ Вставка нового элемента. 

■ Поиск элемента (или элементов) с заданным ключом. 

■ Удаление указанного элемента. 

■ Выбор к-то по величине элемента в таблице символов. 

■ Сортировка таблицы символов (отображение всех элементов в порядке их клю- 
чей). 

■ Объединение двух таблиц символов. 

Подобно множеству других структур данных, к этому набору может потребоваться 
добавить стандартные операции создания , проверки, не пуст ли элемент и, возможно, 
уничтожения и копирования. Кроме того, может потребоваться рассмотрение различных 
других практических изменений основного интерфейса. Например, часто операция по- 
иска и вставки оказывается весьма полезной, поскольку во многих реализациях поиск 
ключа, даже безуспешный, тем не менее, предоставляет точную информацию, необхо- 
димую для вставки нового элемента с этим ключом. 

В общем случае термин "алгоритм поиска" используется в значении "реализация аб- 
страктного типа данных таблицы символов", хотя, строго говоря, последний термин 
предполагает определение и построение основополагающей структуры данных табли- 
цы символов и, в дополнение к поиску, реализацию операций абстрактного типа дан- 
ных. В связи с важностью таблиц символов для столь многих компьютерных приложе- 
ний они доступны в качестве высокоуровневой абстракций во многих средах 
программирования. Стандартная библиотека С содержит Ъ§еагсЬ, т.е. реализацию алго- 
ритма бинарного поиска, описанного в разделе 12.4, а библиотека стандартных шабло- 
нов С+н- предоставляет большое множество таблиц символов, называемых "ассоциатив- 
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ными контейнерами”. Как обычно, трудно добиться, чтобы реализация общего назна- 
чения удовлетворяла требованиям производительности, предъявляемым к специали- 
зированным приложениям. В процессе изучения многих оригинальных методов, раз- 
работанных для реализации абстракции таблицы символов, мы определим контекст, 
который поможет понять характеристики готовых реализаций и принять решение о 
необходимости реализации, предназначенной для конкретного приложения. 

Как и в случае с сортировкой, мы рассмотрим методы без определения типов об- 
рабатываемых элементов. Столь же подробно, как в разделе 6.8, будут исследовать- 
ся реализации, использующие интерфейс, который определяет Ііет и основные аб- 
страктные операции с данными. Мы рассмотрим методы как с использованием 
сравнения, так и с использованием корня, использующие в качестве индексов клю- 
чи или фрагменты ключей. Чтобы разделить роли, выполняемые при поиске элемен- 
тами и ключами, понятие Иеш (элемент), использованное в главах 6—11, расширя- 
ется до элементов, содержащих ключи типа Кеу. Поскольку требуется несколько 
больше элементов, чем было необходимо для ознакомления с алгоритмами сортиров- 
ки, будем считать, что они объединены в пакеты абстрактных типов данных, реали- 
зованные с помощью классов С++, как показано в программе 12.1. Функция-член 
кеу() будет применяться для извлечения ключей из элементов, а перегруженная опе- 
рация орегаіог== — для проверки равенства двух ключей. В этой главе и главе 13 так- 
же перегружается орегаіог< для сравнения значений двух ключей, что помогает при 
поиске; алгоритмы поиска, описанные в главах 14 и 15, основываются на извлечении 
фрагментов ключей за счет использования базовых операций с корнями, которые ис- 
пользовались в главе 10. Кроме того предполагается, что элементы инициализируются 
нулевыми значениями (пиіі), и что клиенты имеют доступ к функции пи11(), которая 
может проверять, является ли элемент нулевым. Нулевые элементы используются для 
поддержки возвращаемого значения в том случае, когда ни один элемент в таблице 
символов не имеет искомого ключа. В некоторых реализациях предполагается, что 
нулевые элементы имеют служебный ключ. 


Программа 12.1 Пример реализации АТД элемента 


Это определение класса элементов, представляющих собой небольшие записи, со- 
стоящие из целочисленных ключей и связанной с ними информации в виде значе- 
ний с плавающей точкой, иллюстрирует основные соглашения в отношении элемен- 
тов таблиц символов. Наши реализации таблиц символов — клиентские программы, 
в которых операции == и < используются для сравнения ключей, а функции-члены 
кеу() и пиІІ() — соответственно для получения доступа к ключам и проверки, явля- 
ются ли элементы нулевыми. 


В определения типа элемента были также включены функции зсап (считывающая 
Нет), гапсі (генерирующая произвольный Нет) и зНо\ѵ (выводящая Нет), которые 
будут использоваться драйверами. Это позволяет создавать и тестировать различ- 
ные реализации таблиц символов, состоящие из различных типов элементов. 


#іпс1исіе <зЪсі1іЪ . Ь> 
#іпс1исіе <іоз'Ьгеат.Ь> 
зѣаѣіс іпЪ тахКѳу = 1000; 
ѣурейе^ іпі: Кеу; 
сіазз Нет 

{ 

ргіѵаѣе : 
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Кѳу кеуѵаі ; 

€1оаѣ іп^о; 
різЫіс : 

ІЪѳт() 

{ кѳуѵаі = тахКѳу; } 

Кѳу кѳу () 

{ гѳѣигп кѳуѵаі; } 
іпѣ пи11() 

{ гѳѣигп кѳуѵаі == тахКѳу; } 
ѵоісі гап<і ( ) 

{ кѳуѵаі = 1000*: : гапсі () /ИШІ)_МАХ; 
іп^о = 1.0*: : гапсі ( ) /КАОТ)_МАХ ; } 

ігѵЬ зсап (ізѣгѳат& із = сіп) 

{ гѳіигп (із » кѳуѵаі » іп^о) != 0; } 

ѵоісі зЬок (оз-Ьгеатб оз * соиѣ) 

{ оз « кѳуѵаі « " " « іп^о « ѳпсіі; } 

} ; 

озі:гѳат& орегаѣог« (озѣгѳат& оз , Нет* х) 

{ х.зЬоѵ(оз); гѳ^игп оз; } 


Чтобы использовать при поиске интерфейсы и реализации для чисел с плавающей 
точкой, строк и более сложных элементов, описанных в разделах 6.8 и 6.9, нужно толь- 
ко убедиться, что в Кеу присутствуют определения кеу(), пи11(), орега1ог== и орегаіог<, 
а также изменить гаші, «сап и «ікпѵ, сделав их функциями-членами, которые ссылают- 
ся на ключи соответствующим образом. 

Программа 12.2 — интерфейс, который определяет базовые операции таблицы сим- 
волов (за исключением операции объединить Ооіп). Этот интерфейс будет использоваться 
в клиентских программах и всех реализациях поиска в этой и нескольких следующих 
главах. Абстрактный тип данных первого класса не применяется в том смысле, как это 
принималось в разделе 4.8 (см. упражнение 12.6), поскольку в большинстве программ 
используется только одна таблица, а добавление конструкторов копирования, перегру- 
женных операций присваивания и деструкторов, хоть и несложная задача в большин- 
стве реализаций, но все же она отвлекала бы от важных характеристик алгоритмов. В 
программе 12.2 можно было бы также определить версию интерфейса для манипулиро- 
вания дескрипторами элементов подобно программе 9.8 (см. упражнение 12.7), но это 
излишне усложняет программу в типичной ситуации, когда достаточно манипулировать 
элементом посредством ключа. Интерфейс не задает способ определения элемента, ко- 
торый должен быть удален . В большинстве реализаций используется интерпретация "уда- 
лить элемент с ключом, равным данному элементу", при этом подразумевается пред- 
варительный поиск. В других реализациях, которые предоставляют дескрипторы и 
могут выполнять проверку идентичности элемента, необходимость поиска перед уда- 
лением исключается, и поэтому для них допустимы более быстрые алгоритмы. Кро- 
ме того, при рассмотрении алгоритмов для операции объединить , предполагающих 
наличие приложений, которые обрабатывают несколько таблиц символов, можно ис- 
пользовать реализации АТД первого класса таблицы символов, которые сводят к ми- 
нимуму напрасную трату времени и расход памяти (см. раздел 12.9). 
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Программа 12.2 АТД таблицы символов 

В этом интерфейсе определены операции для простой таблицы символов: инициа- 
лизация, возврат значения счетчика элементов, поиск элемента с заданным ключом, 
добавление нового элемента, удаление элемента, выбор /с-го наименьшего элемен- 
та и отображение элементов в порядке их ключей (в указанном выходном потоке). 

ѣѳтріаѣе Ссіазз Іѣет, сіазз Кеу> 
сіазз ЗТ 

{ 


// Код, зависящий от реализации 
риЫіс : 

ЗТ(іпЪ) ; 
іп'Ь соипѣ ( ) ; 

Іѣѳт зеагсЬ (Кеу) ; 
ѵоісі іпзегі: (Нет) ; 
ѵоісі гѳтоѵѳ (Ііѳт) ; 

Іѣет зѳіесі (іпі) ; 
ѵоісі зЬоѵг (озігеат&) ; 


В некоторых алгоритмах не предполагается наличие какого-либо определенного по- 
рядка ключей, и поэтому для сравнения ключей в них используется только орега!ог== (а 
не орегаіог< ) , однако во многих реализациях таблиц символов используется упорядочен- 
ная организация ключей, применяемых в орегаіоК для структурирования данных и уп- 
равления поиском. Кроме того, абстрактные операции зеіесі (выбор) и зон (сортировка) 
явно ссылаются на порядок ключей. Функция зон объединяется в пакет в виде функции, 
которая отправляет все элементы в выходной поток по порядку без необязательной пе- 
рекомпоновки. Реализации зон можно легко обобщить с целью получения функции, ко- 
торая посещает элементы в порядке их ключей, возможно, применяя к каждому из них 
процедуру, переданную в аргументе. Используемые функции зон для таблиц символов мы 
назвали зЬо^ѵ, поскольку приведенные реализации обеспечивают отображение содержи- 
мого таблицы символов отсортированным по порядку. Для алгоритмов, в которых 
орегаіог< не используется, нет необходимости, чтобы ключи были сравнимы друг с дру- 
гом, поэтому такие алгоритмы необязательно поддерживают операции зеіесі и зон. 

Случай возможного существования элементов с дублированными ключами при со- 
здании реализации таблицы символов должен рассматриваться особо. Некоторые при- 
ложения не допускают существования дублированных ключей, поэтому ключи могут 
использоваться в качестве дескрипторов. Примером такой ситуации может служить ис- 
пользование номеров карточек социального страхования в качестве ключей для пер- 
сональных файлов. Напротив, в других приложениях может предполагаться наличие 
нескольких элементов с одинаковыми ключами: например, поиск по ключевому слову 
в базах данных документов, как правило, будет приводить к нескольким совпадениям 
с условием поиска. 

Обработку элементов с дублированными ключами можно выполнять одним из не- 
скольких способов. Один из подходов — настаивание на том, чтобы искомая в первую 
очередь структура данных содержала только элементы с различными ключами и обес- 
печение для каждого ключа ссылки на список элементов приложения, содержащих дуб- 
лированные ключи. То есть, в базовых структурах данных используются элементы, 
которые содержат ключ и ссылку, и отсутствуют элементы с одинаковыми ключами. 
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Подобная организация удобна в некоторых приложениях, поскольку все элементы с 
данным искомым ключом возвращаются в результате выполнения одной операции 
зеагс/г (поиск) или могут быть удалены одной операцией гетоѵе (удаление). С точки зре- 
ния реализации, эта организация эквивалентна предоставлению управления дублиро- 
ванными ключами клиенту. Вторая возможность — оставление элементов с одинако- 
выми ключами в главной структуре данных поиска и возврат в результате поиска 
любого элемента с данным ключом. Это соглашение проще для приложений, которые 
обрабатывают элементы по одному, когда порядок обработки элементов с одинако- 
выми ключами не важен. Однако, это может оказаться неудобным с точки зрения 
разработки алгоритма, поскольку может потребоваться расширение интерфейса за 
счет включения в него механизма для получения всех элементов с данным ключом 
или для вызова указанной функции для каждого элемента с конкретным ключом. 
Третья возможность — принять, что каждый элемент имеет уникальный идентифи- 
катор (кроме ключа) и потребовать, чтобы функция зеагсИ отыскивала элемент с дан- 
ным идентификатором при заданном ключе. Разумеется, может потребоваться и ка- 
кой-либо более сложный механизм. Эти рассуждения применимы ко всем операциям 
на таблицах символов при наличии дублированных ключей. Нужно ли удалить все 
элементы с данным ключом, любой элемент с ключом или конкретный элемент (для 
чего требуется реализация, поддерживающая дескрипторы элементов)? При описании 
реализаций таблиц символов мы неформально указываем возможный наиболее удоб- 
ный способ обработки элементов с одинаковыми ключами, не обязательно рассмат- 
ривая каждый механизм для каждой реализации. 

Программа 12.3 — пример клиентской программы, иллюстрирующий упомянутые 
выше соглашения для реализаций таблиц символов. Программа использует таблицу сим- 
волов для поиска различных значений в последовательности ключей (сгенерированной 
произвольно или считанной со стандартного ввода), а затем выводит их в отсортиро- 
ванном порядке. 

Программа 12.3 Пример клиента для таблицы символов 

В этой программе таблица символов используется для поиска отдельных ключей в 
произвольно сгенерированной или считанной со стандартного ввода последователь- 
ности. Для каждого ключа операция зеагсіі используется для проверки того, про- 
сматривался ли ключ раньше. Если ранее ключ не просматривался, функция 
вставляет элемент с этим ключом в таблицу символов. Типы ключей и элементов, а так- 
же абстрактные операции с ними определены в Нет.схх (см., например, программу 12.1). 

#іпс1исіе сіоз^геат. Ь> 

#іпс1исіе <з1:с11іЬ.Ь> 

#іпс1исіе " I ■Ьеш . схх " 

#іпс1шіе "ЗТ.схх" 

іп^ тад-п^пЪ агдс, сЬаг *агдѵ[]) 

{ іпЪ Ы, тахИ = аѣоі (агдѵ[1] ) , з ѵ = аѣоі (агдѵ[2] ) ; 

ЗЗЧІ'Ьет, Кеу> зЪ(тахЛ); 

^ог (И = 0 ; N < шахИ; И++) 

{ Нет ѵ; 

(зѵг) ѵ.гапсЦ) ; еізе (!ѵ.зсап()) Ьгеак; 

( ! (з’Ь. зеагсЬ (ѵ.кеу () ) ) .пиіі () ) соп*Ьіпие; 
зЪ. іпзегЪ (ѵ) ; 

} 
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зі:. зЪоѵ (соиі:) ; соие. « ѳп<і1; 
соиі: « N « " кѳуз" « ѳпсіі; 

соиі « зі.соип1() « " Шз-ЫпсЪ кѳуз" « ѳпсіі; 


Как обычно, следует иметь в виду, что различные реализации операций на табли- 
цах символов обладают различными характеристиками производительности, которые 
могут зависеть от конкретного набора операций. В одном приложении операция іпзегі 
может использоваться сравнительно редко (возможно, для построения таблицы) при 
огромном количестве выполняемых операций зеагсН\ в другом, в сравнительно неболь- 
ших таблицах, может выполняться огромное количество операций іпзегі и гетоѵе , пере- 
межаемое операциями зеагсН. Не все реализации будут поддерживать все операции, и 
некоторые из них могут обеспечивать эффективную поддержку определенных функций 
за счет других; при этом явно предполагается, что менее эффективные функции выпол- 
няются редко. Каждая из базовых операций в интерфейсе таблицы символов находит 
важные применения, поэтому для обеспечения эффективного использования различных 
комбинаций операций предлагается множество базовых вариантов реализации. В этой 
и нескольких следующих главах основное внимание будет уделено реализациям базо- 
вых функций сопзігисі , іпзегі и зеагсН с приведением некоторых пояснений относитель- 
но функций гетоѵе , зеіесі, зогі и у'о/л, когда в этом возникнет необходимость. Широкое 
множество алгоритмов, требующих рассмотрения, обусловлено различием характерис- 
тик производительности различных комбинаций базовых операций, а также ограниче- 
ниями, накладываемыми на значения ключей, размерами элементов и другими факто- 
рами. 

В этой главе мы встретимся с реализациями, в которых среднее время выполнения 
операций зеагсН, іпзегі , гетоѵе и зеіесі для произвольных ключей пропорционально ло- 
гарифму количества элементов в словаре, а время выполнения операции зогі линейно 
зависит от количества элементов. В главе 13 мы исследуем способы обеспечения этого 
уровня производительности; кроме того, в разделе 12.2 будет приведена одна, а в гла- 
вах 14 и 15 — несколько реализаций, производительность которых при определенных 
условиях остается постоянной. 

Изучены и многие другие операции с таблицами символов. Примерами могут слу- 
жить поиск от метки (/іп^ег зеагсИ ), при котором поиск может начинаться с точки, в 
которой завершился предыдущий поиск; поиск в диапазоне , когда нужно подсчитать или 
отобразить все узлы, попадающие в казанный интервал; и поиск ближайшего соседа 
(если определено понятие расстояния), при котором выполняется поиск ключей, бли- 
жайших к данному. 

Упражнения 

О 12.1 Создать реализацию класса Нет (аналогичную программе 12.1), поддержива- 
ющего обработку реализациями таблиц символов элементов, состоящих исключи- 
тельно из целочисленных ключей. 

12.2 Создать реализацию класса Нет (аналогичную программе 12.1), поддержива- 
ющего обработку реализациями таблиц символов элементов, состоящих исключи- 
тельно из строковых ключей в стиле С, а также поддерживающую буфер для строк, 
как это делается в программе 6.11. 
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ъ> 12.3 Используя программу 12.2 АТД таблицы символов, создать реализации АТД 
стека и очереди. 

о 12.4 Используй АТД таблицы символов, определенный программой интерфейса 
12.2, создать реализацию АТД очереди по приоритету, который поддерживает опе- 
рации удаления как максимального, так и минимального элементов. 

12.5 Используя АТД таблицы символов, определенный программой интерфейса 
12.2, создать реализацию сортировки массива, совместимой с реализациями, опи- 
санными в главах 6—10. 

о 12.6 Добавьте в программу 12.2 объявления деструктора, конструктора копирова- 
ния и перегруженной операции присваивания, чтобы преобразовать ее в АТД пер- 
вого класса (см. разделы 4.8 и 9.5). 

12.7 Определите интерфейс АТД таблицы символов, который позволяет клиентс- 
ким программам удалять конкретные элементы с использованием дескрипторов 
и изменять ключи (см. разделы 4.8 и 9.5). 

> 12.8 Приведите интерфейс типа элемента и реализацию элементов с двумя поля- 
ми: 16-битным целочисленным ключом и строкой С, которая содержит информа- 
цию, связанную с этим ключом. 

• 12.9 Укажите среднее количество отдельных ключей, которые программа-драйвер 
(программа 12.3) будет находить среди А произвольных целых чисел, меньших 1000, 
для N = 10, 10 2 , 10 3 , ІО 4 и 10 5 . Определите свой ответ эмпирически, аналитически 
или обоими методами. 

12.2 Поиск с использованием индексации по ключам 

Предположим, что значения ключей — отдельные небольшие числа. В этом случае 
простейший алгоритм поиска основывается на сохранении элементов в массиве, индек- 
сированном по ключам, как сделано в реализации, приведенной в программе 12.4. Код 
весьма прост: оператор пе\ѵ[] инициализирует все записи значением ішШет, затем мы 
вставляем ( іпзегі ) элемент со значением ключа к, просто сохраняя его в массиве 8І[к], 
и выполняем поиск (зеагсИ) элемента со значением ключа к, отыскивая его в 8і[к]. Для 
удаления ( гетоѵе ) элемента со значением ключа к значение шШНет помещается в 8([к]. 
Реализации операций выбора ( зеіесі ), сортировки (зо/і) и подсчета ( соипі ) в программе 
12.4 используют линейный просмотр массива с пропуском нулевых элементов. Реали- 
зация предоставляет клиенту решать задачи обработки элементов с дублированными 
ключами и проверки таких условий, как указание операции гетоѵе для ключа, отсут- 
ствующего в таблице. 

Эта реализация служит отправной точкой для всех реализаций таблиц символов, 
которые рассматриваются в этой главе и главах 13—15. Как таковая она может исполь- 
зоваться для различных клиентов и с различными типами элементов. Компилятор бу- 
дет проверять, подчиняются ли интерфейс, реализация и клиент одним и тем же согла- 
шениям. 

Операция индексации, на которой основывается поиск с использованием индек- 
сации по ключам, совпадает с базовой операцией в методе сортировки с подсчетом ин- 
дексированных ключей, который был исследован в разделе 6.10. Когда это возможно, 
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следует выбирать метод поиска с использованием индексации по ключам, поскольку 
операции зеагсН и іпзегі трудно реализовать эффективнее. 

Если элементы вообще отсутствуют (имеются только ключи), можно использовать 
таблицу бит. В этом случае таблица символов называется таблицей существования 
(ехШепсе іаЫе), поскольку к- ый разряд можно считать признаком существования к в 
наборе ключей таблицы. Например, на 32-разрядном компьютере этот метод можно 
было бы использовать для быстрого выяснения того, используется ли уже конкретный 
4-значный номер телефонного коммутатора, используя таблицу из 313 слов. 

Лемма 12.1 Если значения ключей — положительные целые числа меньшие М, и элементы 
имеют различные ключи, то тип данных таблицы символов может быть реализован по- 
средством индексированных по ключам массивов элементов так, чтобы для выполнения 
операций іпзегі, зеагсЬ и гетоѵе требовалось постоянное время; время для выполнения 
операций ілМаІіге, $е1ес( и §огі пропорционально М всегда, когда любая из операций вы- 
полняется по отношению к таблице, состоящей из УѴ-, элементов . 

Это свойство становится очевидным после ознакомления с кодом. Обратите внима- 
ние, что на ключи накладывается условие N < М. 

Программа 12.4 не обрабатывает дублированные ключи и в ней предполагается, что 
значения ключей лежат в пределах между 0 и М-1. Для хранения любых элементов с 
одинаковыми ключами можно было бы использовать связные списки или один из под- 
ходов, упомянутых в разделе 12.1, а перед использованием ключей в качестве индек- 
сов можно было бы выполнить их простые преобразования (см. упражнение 12.13). Но 
мы отложим подробное рассмотрение таких случаев вплоть до главы 14, в которой рас- 
сматривается хеширование , при котором Для реализации таблиц символов для общих 
ключей используется этот же подход, заключающийся в преобразовании ключей из по- 
тенциально широкого диапазона в узкий с дополнительными действиями для элемен- 
тов с дублированными ключами. Пока будем предполагать, что старым элементом со 
значением ключа, равным ключу вставляемого элемента, можно молча пренебречь (как 
в программе 12.4), или же считать это условием ошибки (см. упражнение 12.10). 

Программа 12.4 Таблица символов, основывающаяся на индексированном по 
ключам массиве 

В этой программе предполагается, что значения ключей — положительные целые 
числа, меньшие зарезервированного значения М, и они используются в качестве 
индексов массива. В силе соглашение, что конструктор Нет создает элементы со 
значениями ключей, равными зарезервированному значению, чтобы конструктор 5Т 
мог отыскать значение М в нулевом элементе. При этом, прежде всего, необходи- 
мо следить за объемом памяти, который требуется, когда зарезервированное зна- 
чение велико, и за временем, необходимым конструктору 5Т, когда значение N 
мало по сравнению со значением М. 

ѣетріаііе <с1азз Іѣет, сіазз Кеу> 
сіазз ЗТ 

{ 


Іѣет пиІШеш, *зѣ; 
іп^ М; 
риЫіс : 
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87(1111 тахЛ) 

{ М = пиШІеш.кеу () ; зі = пеѵ І1ет[М] ; } 

іпі соипі () 

{ іпі N = 0 ; 

Іог (іпі 1 = 0; і < М; і++) 

11 ( ! зі [1] . пиіі () ) Ы++; 
геіигп N ; 

} 

ѵоісі іпзег1(І1ет х) 

{ зі [х. кеу () ] = х; } 

Нет зеагсЬ (Кеу ѵ) 

{ геіигп з![ѵ]; } 

ѵоісі гетоѵе (Нет х) 

{ з![х.кеу()] = пиііііет; } 

Нет зе1ес1(іп! к) 

{ Іог (іпі 1 = 0; 1 < М; 1++) 

11 ( ! з![і] .пиіі () ) 

11 (к-- == 0) геіигп з![і] ; 

геіигп пиіі Нет; 

} 

ѵоісі зЬоѵг (оз!геат& оз) 

{ Іог (іпі 1 = 0; 1 < М; 1++) 

11 ( !з![і] .пиіі () ) з![і] . зЬоѵ (оз) ; } 


Реализация операции соипі в программе 12.4 — пример "ленивого" подхода, когда 
действия выполняются только при вызове функции соипі. Альтернативный ("энергич- 
ный") подход заключается в поддержке локальной переменной счетчика непустых по- 
зиций таблицы с увеличением значения переменной, когда вставка (іп$ег!) выполняется 
в позицию таблицы, содержащую шіШет, и с уменьшением значения счетчика, если 
удаление (гетоѵе) выполняется по отношению к позиции таблицы, не содержащей 
пиііііет (см. упражнение 12.11). "Ленивый" подход предпочтительнее, если операция 
соипі используется редко (или вообще не используется), а количество возможных зна- 
чений ключей мало; "энергичный" подход предпочтительнее, если операция соипі ис- 
пользуется часто или если количество возможных значений ключей очень велико. Для 
подпрограммы библиотеки общего назначения "энергичный" подход предпочтительней, 
поскольку он обеспечивает оптимальную производительность для наихудшего случая 
при небольшом постоянном коэффициенте увеличения затрат на выполнение операций 
шеп и гетоѵе. Для внутреннего цикла в приложении с очень большим количеством опе- 
раций іпзеп и гетоѵе , но незначительным количеством операций соипі "ленивый" под- 
ход оказывается предпочтительней, поскольку обеспечивает наиболее быструю реали- 
зацию часто выполняемых операций. Как мы уже неоднократно убеждались, подобная 
дилемма типична для разработки АТД, которые должны поддерживать различные на- 
боры операций. 

При разработке интерфейса общего назначения приходится принимать и ряде дру- 
гих решений. Например, должен ли диапазон ключей быть одинаковым для всех объек- 
тов или различным для различных объектов? При выборе последнего варианта может 
потребоваться добавить аргументы к конструктору и определить функции, предостав- 
ляющие клиенту доступ к диапазону ключей. 
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Индексированные по ключам массивы удобны для многих приложений, но они не- 
применимы, если ключи не попадают в узкий диапазон. Действительно, можно счи- 
тать, что эта и несколько следующих глав посвящены разработке решений для слу- 
чая, когда диапазон возможных значений ключей столь широк, что невозможно 
использовать индексированную таблицу с одной потенциальной записью для каждо- 
го ключа. 

Упражнения 

12.10 Реализуйте АТД таблицы символов первого класса (см. упражнение 12.6), ис- 
пользуя динамически распределяемые массивы, индексированные по ключам. 

> 12.11 Измените реализацию, представленную в программе 12.4, чтобы обеспечить 
"энергичную" реализацию функции соипі (путем отслеживания количества ненуле- 
вых записей). 

> 12.12 Измените реализацию, созданную в упражнении 12.10, чтобы обеспечить 
"энергичную" реализацию функции соипі (см. упражнение 12.11). 

12.13 Разработайте версию программы 12.4, в которой используется функция Ь(Кеу), 
преобразующая ключи в неотрицательные целые числа меньшие М так, чтобы ни- 
какие два ключа не отображались одним и тем же целым числом. (Это усовершен- 
ствование делает реализацию полезной, когда ключи относятся к узкому диапазону 
(не обязательно начинающемуся с 0) и в других простых случаях.) 

12.14 Разработайте версию программы 12.4 для случая, когда элементы представляют 
собой ключи, являющиеся положительными целыми числами меньшими М (без ка- 
кой-либо связанной информации). В реализации используйте динамически распре- 
деленный массив, состоящий приблизительно из М/Ъііѵѵопі слов, где ЪіЬѵогё — ■ ко- 
личество бит в одном слове в используемой компьютерной системе. 

12.15 Используйте реализацию, созданную в упражнении 12.14, для эксперименталь- 
ного определения среднего и стандартного отклонений количества отдельных целых 
чисел в произвольной последовательности N неотрицательных целых чисел меньших 
N для УѴ близкого к объему памяти, доступному программе в используемом компь- 
ютере и выраженному в битах (см. программу 12.3) 

12.3 Последовательный поиск 

В общем случае, когда значения ключей относятся к слишком большому диапазону, 
чтобы их можно было использовать в качестве индексов, один из простых подходов к 
реализации таблиц символов — последовательное сохранение элементов в массиве в 
упорядоченном виде. Когда требуется вставить новый элемент, мы вставляем его в мас- 
сив, перемещая большие элементы на одну позицию, как это делалось для сортировки 
вставками; когда необходимо выполнить поиск, массив просматривается последователь- 
но. Поскольку массив упорядочен, при встрече ключа, значение которого больше ис- 
комого, можно сделать вывод о неудаче поиска. Более того, благодаря упорядочению 
массива, реализация операций зеіесі и зон не представляет сложности. Программа 12.5 
содержит реализацию таблицы символов, которая основывается на этом подходе. 
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Программа 12.5 Таблица символов (упорядоченная) с использованием массива 

Подобно программе 12.4, в этой реализации используется массив элементов, но для 
нее не обязательно, чтобы ключи были небольшими целыми числами. Поддержание 
упорядоченности массива обеспечивается тем, что при вставке нового элемента 
большие элементы смещаются с целью освобождения места, как это делается при 
сортировке вставками. В этом случае функция веагсН может выполнять в массиве 
поиск элемента с указанным ключом, возвращая значение пиІІІіет при обнаруже- 
нии элемента с большим ключом. Реализация функций веіесі и зог* тривиальны, а 
реализация функции гетоѵе оставляется на самостоятельную проработку (см. уп- 
ражнение 12.16). 

ѣетріаѣе <с1азз Іѣет, сіазз Кеу> 
сіазз 5Т 

{ 


Нет пиІІІЪет, *з*Ь; 
іпЪ N ; 
риЫіс : 

ЗТ(іп1 тахИ) 

{ зЪ « пеѵ І1ет[тахК+1] ; N = 0 ; } 

іпѣ соипѣО 

{ геЪигп } 
ѵоісі іпзег1(І1ет х) 

{ іпЪ і = N+4- ; Кеу ѵ = х . кеу ( ) ; 

ѵЫІе (і > 0 && ѵ < зі: [і-1] .кеу () ) 

{ з![і] = зі [і-1] ; і — ; } 

з![і] = х; 

> 

І“Ьет зеагсЬ (Кеу ѵ) 

{ 

Ног (іпЪ і = 0; і < N 7 і++) 

( ! (зЪ [і] .кеу () < ѵ) ) Ьгеак; 

ІИ (ѵ == зЪ [і] .кеу () ) геЪигп вЪ[і] ; 
геѣигп пиІІИет; 

} 

Нет зеІес'Міпѣ к) 

{ ге'Ьигп зѣ[к] ; } 

ѵоісі зЬоѵ (оз1геат& оз) 

{ іпѣ і = 0 ; 

ѵЫІе (і < К) зѣ[і++] . зЬоѵ(оз) ; } 


В программе 12.5 можно было бы несколько усовершенствовать внутренний цикл в 
реализации операции зеагсН за счет использования служебного значения для исключе- 
ния проверки на предмет выхода за пределы массива в том случае, если ни один из эле- 
ментов таблицы не содержит искомого ключа. В частности, следующую после конца 
массива позицию можно было бы сохранить в качестве служебной, а затем перед по- 
иском заполнить ее поле ключа искомым значением. В таком случае поиск всегда бу- 
дет завершаться на элементе, содержащем искомый ключ, а то, находился ли ключ в 
таблице, всегда можно определить, проверив, является ли данный элемент служебным. 

Другой подход связан с созданием реализации, в которой размещение элементов 
в массиве по порядку не является обязательным. При вставке новый элемент поме- 
щается в конец массива; во время поиска массив просматривается последовательно. 
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Этот подход характеризуется тем, что операция іпзегі выполняется быстро, а опера- 
ции зеіесі и зогі требуют значительно большего объема работы (для выполнения каж- 
дой из них требуется реализация одного из методов, описанных в главах 7—10). Уда- 
ление ( гетоѵе ) элемента с указанным ключом можно выполнить, отыскав его, а затем 
переместив последний элемент массива в позицию удаляемого элемента и уменьшив раз- 
мер массива на 1 ; удаление всех элементов с заданным ключом реализуется путем повто- 
рения этой операции. Если доступен дескриптор, предоставляющий индекс элемента в 
массиве, поиск не требуется и операция гетоѵе выполняется за постоянное время. 

Еще одна простая реализация таблицы символов — использование связного списка. 
В этом случае можно также хранить список в упорядоченном виде с целью урощения 
поддержки операции зогі либо оставить его неупорядоченным для ускорения операции 
ітегі. Программа 12.6 демонстрирует второй подход. Как обычно, преимущество при- 
менения связных списков по сравнению с массивами состоит в том, что вовсе не обя- 
зательно заранее точно определять максимальный размер таблицы, а недостаток — в 
необходимости расхода дополнительного объема памяти (под ссылки) и невозможнос- 
ти эффективной поддержки операции зеіесі. 

Программа 12.6 Таблица символов (неупорядоченная) с использованием связного списка 

В этой реализации операций сопзігисі, соипі, зеагсЬ и іпзегі используется односвяз- 
ный список, каждый узел которого содержит элемент с ключом и ссылкой. Функция 
іпзегі помещает новый элемент в начало списка и выполняется за постоянное вре- 
мя. Функция-член зеагсЬ использует приватную рекурсивную функцию зеагсНК для 
просмотра списка. 

Поскольку список не упорядочен, реализации операций зогі и зеіесі опущены. 

#іпс1исіе <з , Ьсі1іЪ.Ь> 

ЬетрІаЪе <с1азз Нет, сіазз Кеу> 
сіазз ЗТ 

{ 


Нет пиІШет; 
зЪгисЬ посіе 

{ Нет Пет; посіе* пехЬ; 
посіе (Нет х, посіе* Ь) 

{ Нет = х; пехЪ = Ь ; } 

} ; 

Ьуресіе^ посіе *1іпк; 
іпЪ И; 

Ііпк Ьеасі; 

Нет зеагсЬК(1іпк Ь, Кеу ѵ) 

{ Н (1 = 0) геЬигп пиІІНет; 

Н ( , Ь->Нет.кеу () = ѵ) геЪигп Ъ->Нет; 
геіит зеагсЬК. (Ъ-^пехЪ, ѵ) ; 

} 

риЫіс: 

5Т(іпѣ тахЯ) 

{ Ьеасі = 0 ; N = 0 ; } 

іпЬ соипЪО 

{ геіит Ы; } 

Нет зеагсЬ(Кеу ѵ) 

{ геіигп зеагсЬК (Ьеасі, ѵ) ; } 

ѵоісі іпзегі; (Нет х) 

{ Ьеасі = пеѵ посіе (х , Ьеасі) ; Ы++ ; } 
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Подходы с использованием неупорядоченного массива и неупорядоченного списка 
оставлены для самостоятельной реализации (см. упражнения 12.20 и 12.21). Все четы- 
ре упомянутых подхода (с использованием массивов и списков, упорядоченных и не- 
упорядоченных) могут использоваться в приложениях один вместо другого, отлича- 
ясь только временем выполнения и требуемым объемом памяти. В этой и нескольких 
следующих главах исследуется множество различных подходов к решению задачи ре- 
ализации таблиц символов. 

Сохранение элементов в упорядоченном виде — иллюстрация идеи, что в о общем 
случае в реализациях таблиц символов ключи используются для определенной струк- 
туризации данных в целях ускорения поиска. Структура может допускать быстрые ре- 
ализации и ряда других операций, но при этом следует учитывать затраты на поддер- 
жку структуры, которые могут приводить к замедлению других операций. Мы 
встретимся с многими примерами упомянутого явления. Например, в приложении, где 
функция $огі требуется часто, нужно было бы выбрать упорядоченное представление (с 
использованием массива или списка), поскольку такая структура таблицы делает реа- 
лизацию функции зоП тривиальной, в отличие от необходимости полной реализации 
сортировки. В приложении, в котором заведомо потребуется частое выполнение опе- 
рации ьеіесі, нужно было бы использовать представление с использованием упорядочен- 
ного массива, поскольку при такой структуре таблицы затрачиваемое на выполнение 
упомянутой операции время постоянно. И напротив, время выполнения операции зеіесі 
в связном списке линейно зависит от количества элементов, даже если список упоря- 
дочен. 

Чтобы подробнее проанализировать последовательный поиск произвольных ключей, 
начнем с рассмотрения затрат на вставку новых ключей и отдельно рассмотрим случаи 
успешного и неуспешного поиска. Первый часто называют попаданием при поиске , а вто- 
рой — промахом при поиске. Нас интересуют затраты как при попаданиях, так и при про- 
махах в среднем и худшем случаях. Строго говоря, в реализации с использованием упо- 
рядоченного массива (см. программу 12.5) для каждого исследуемого элемента 
используются две операции сравнения (== и <). При анализе в главах 12—16 каждую 
из таких пар мы будем считать одной операцией сравнения, поскольку обычно для эф- 
фективного их объединения можно выполнить низкоуровневую оптимизацию. 


Лемма 12.2 При последовательном поиске в таблице символов с N элементами для вы- 
явления попаданий при поиске требуется выполнение около N/2 сравнений (в среднем). 

См. лемму 2.1. Доказательство применимо к массивам или связным спискам, упо- 
рядоченным или неупорядоченным. 


Лемма 12.3 При последовательном поиске в таблице символов, содержащей N неупоря- 
доченных элементов, используется постоянное количество шагов для выполнения вставок 
и N сравнений для выявления промахов при поиске (всегда). 

Эти утверждения справедливы для представлений с использованием как массивов, 
так и связных списков, в чем легко убедиться, ознакомившись с реализациями (см. 
упражнение 12.20 и программу 12.6). 
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Лемма 12.4 Для вставки, обнаружения попаданий и промахов при последовательном по- 
иске в таблице символов, содержащей N упорядоченных элементов, требуется выполне- 
ние приблизительно N/2 операций сравнения (в среднем). 

См. лемму 2.2. И вновь эти утверждения справедливы для представлений с исполь- 
зованием как массивов, так и связных списков, в чем несложно убедиться, ознако- 
мившись с реализациями (см. программу 12.5 и упражнение 12.21). 

Построение упорядоченных таблиц путем последовательной вставки, по существу, 
эквивалентно выполнению алгоритма сортировки вставками, который был описан в 
разделе 6.2. Общее время, необходимое для построения таблицы, связано квадратичной 
зависимостью с количеством элементов, поэтому вряд ли стоит использовать этот ме- 
тод для построения больших таблиц. Однако при выполнении огромного количества 
операций зеагсИ в небольшой таблице поддержка упорядоченности элементов вполне 
оправдана, поскольку в соответствии с леммами 12.3 и 12.4 этот подход может в два раза 
уменьшить время, затрачиваемое на обнаружение промахов при поиске. Если элемен- 
ты с дублированными ключами не должны храниться в таблице, дополнительные зат- 
раты на поддержку упорядоченности таблицы не столь велики, как может казаться, 
поскольку вставка выполняется только после обнаружения промаха при поиске и, сле- 
довательно, время, затрачиваемое на вставку, пропорционально времени, затрачивае- 
мому на поиск. С другой стороны, если элементы с дублированными ключами могут 
храниться в таблице, при использовании неупорядоченной таблицы время выполнения 
операции іпзеп может оставаться постоянным. Использование неупорядоченной табли- 
цы предпочтительнее для приложений, в которых выполняется огромное количество 
операций іпзеп при сравнительно небольшом числе операций зеагсИ. 

Помимо учета этих различий, приходится, как обычно, идти на компромисс: для 
реализаций с использованием связных списков требуется дополнительный объем памяти 
для ссылок, в то время как для реализаций с использованием массивов необходимо за- 
ранее знать максимальный размер таблицы или же предусмотреть увеличение таблицы 
с течением времени (см. раздел 14.5). Кроме того, как упоминалось в разделе 12.5, ис- 
пользование связных списков обладает гибкостью, позволяющей эффективно реализо- 
вать другие операции типа ]оіп и гетоѵе. 

Эти результаты во взаимосвязи с другими алгоритмами, освещенными далее в этой 
главе и главах 13 и 14, обобщены в табл. 12.1. В разделе 12.4 рассматривается бинарный 
поиск , при котором зависимость времени поиска от количества элементов уменьшает- 
ся до 1§ѴѴ, в связи с чем он широко используется при работе со статическими таблица- 
ми (когда вставки выполняются сравнительно редко). 

Таблица 12.1 Затраты на вставку и поиск в таблицах символов 

— ■■■« — — — — ■ ■■■ И И— — — — ■■■■■■— 1 — — — — — — — — — — I ^ ^ ^ ^ 

Записи в этой таблице представляют приведенное к постоянному коэффициенту 
время выполнения как функцию от количества элементов в таблице N и размеров 
таблицы М (если он отличен от /V) для реализаций, в которых новые элементы мож- 
но вставлять независимо от наличия в таблице элементов с дублированными клю- 
чами. При реализации элементарных методов (первые четыре строки) время выпол- 
нения некоторых операций постоянно, а время выполнения других линейно зависит 
от количества элементов или размеров таблицы; более сложные методы гарантиру- 
ют логарифмическую зависимость времени от количества элементов или же посто- 
янство времени выполнения большинства или всех операций. Значения А/Ід/Ѵ в стол- 
бце операции выбора представляют затраты на сортировку элементов — линейная 
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зависимость времени выполнения операции зеіесі для неупорядоченного набора 
элементов возможна лишь теоретически, но не на практике (см. раздел 7.8). Зна- 
чения, помеченные звездочкой, относятся к крайне нежелательным худшим случа- 
ям. 



худший случай 

| средний случай 


вставка 

поиск 

выбор 

попадание 
вставка при поиске 

промах 
при поиске 

массив, индексированный по ключам 

1 

1 

М 

1 

і 

1 

упорядоченный массив 

N 

N 

1 

/Ѵ/2 

N/2 

/V/ 2 

упорядоченный связный список 

N 

N 

N 

N/2 

N/2 

/V/ 2 

неупорядоченный массив 

1 

N 

А/ Ід/Ѵ 

1 

N/2 

N 

неупорядоченный связный список 

1 

N 

/V ІдЛ/ 

1 

N/2 

N 

бинарный поиск 

N 

ІдА/ 

1 

N/2 

ід/ѵ 

Ід/ѵ 

дерево бинарного поиска 

N 

N 

N 

ід/ѵ 

ІдА/ 

ідл/ 

дерево типа "красное— черное" 

ІдА/ 

ідіѵ 

ідм 

ІдЛ/ 

ід/ѵ 

ід/ѵ 

рандомизованное дерево 

/V* 

Л/‘ 

/V* 

ІдЛ/ 

ід/ѵ 

ід/ѵ 

хеширование 

1 

л/’ 

N ІдЛ/ 

і 

і 

і 


В разделах 12.5—12.9 рассматриваются деревья бинарного поиска , которые обеспечи- 
вают определенную гибкость в том, что время поиска и вставки становится пропорци- 
ональным 1§А, но только в среднем. В главе 13 будут исследоваться деревья типа 'крас- 
ное черное" (гесІ-Ыаск ігее) и рандомизованные деревья бинарного поиска , которые, 
соответственно, гарантируют логарифмическую зависимость времени от количества эле- 
ментов либо существенно увеличивают вероятность этого. В главе 14 изучаются вопросы 
хеширования , которое в среднем обеспечивает постоянство времени поиска и вставки, 
но не обеспечивает эффективную поддержку операции зогі и ряда других операций. В 
главе 15 будут рассматриваться методы поразрядного поиска, которые аналогичны ме- 
тодам поразрядной сортировки, описанным в главе 10; в главе 16 исследуются методы, 
применимые к файлам, которые хранятся внешне. 

Упражнения 

> 12.16 Добавьте операцию гетоѵе в приведенную реализацию таблицы символов с 
использованием упорядоченного массива (программа 12.5). 

> 12.17 Создайте функции $еагсЬіп8ег1 для приведенных реализаций таблиц симво- 
лов с использованием списка (программа 12.6) и массива (программа 12.5). Фун- 
кции должны выполнять в таблице символов поиск элемента с заданным ключом, 
а затем вставлять элемент, если таковой в таблице отсутствует. 

12.18 Создайте операцию зеіесі для приведенной реализации таблицы символов с 
использованием списка (программа 12.6). 

12.19 Укажите количество операций сравнения, необходимое для помещения клю- 
чей ЕА8Ѵ(21ІЕ8ТІС^в первоначально пустую таблицу с использованием 
АТД, которые реализованы в соответствие с одним из четырех элементарных под- 
ходов: упорядоченный или неупорядоченный массив или список. Примите, что для 
каждого ключа выполняется поиск, а затем, в случае его отсутствия в таблице, вы- 
полняется вставка, как в упражнении 12.17. 
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12.20 Реализуйте операции сопзігисі, зеагск и іпзеіі для интерфейса таблицы симво- 
лов программы. 12.2, используя для представления таблицы символов неупорядочен- 
ный массив. Характеристики производительности программы должны соответство- 
вать табл. 12.1. 

о 12.21 Реализуйте операции сопзігисі , зеагск и іпзегі для интерфейса таблицы симво- 
лов программы 12.2, используя для представления таблицы символов упорядоченный 
связный список. Характеристики производительности программы должны соответ- 
ствовать табл. 12.1. 

о 12.22 Измените представленные реализации таблицы символов с использованием 
списка (программа 12.6), чтобы они поддерживали дескрипторы элемента клиента 
(см. упражнение 12.7); добавьте деструктор, конструктор копирования и перегружен- 
ную операцию присваивания (см. упражнение 12.6); добавьте операции гетоѵе и ]оіп\ 
создайте программу-драйвер, тестирующую созданные интерфейс и реализацию АТД 
первого класса таблицы символов. 

12.23 Создайте программу-драйвер проверки производительности, в которой фун- 
кция іп§ег1 используется для заполнения таблицы символов, а функции зеіесі и 
гешоѵе — для ее освобождения; эти операции должны повторяться несколько раз 
применительно к произвольным последовательностям ключей различной длины, от 
малой до большой. Программа должна замерять время, затрачиваемое на каждое вы- 
полнение, и выводить средние значения в виде текста или графика. 

12.24 Создайте программу-драйвер проверки производительности, в которой бы 
функция Іп8ег1 использовалась для заполнения таблицы символов, а функция 8еагсІі 
обеспечивала, чтобы при поиске каждого элемента в таблице в среднем происходило 
10 попаданий и примерно столько же промахов; эти операции должны повторяться 
несколько раз применительно к произвольной последовательности ключей различ- 
ной длины, от малой до большой. Программа должна замерять время, затрачивае- 
мое на каждое выполнение, и выводить средние значения в виде текста или графика. 

12.25 Создайте программу-драйвер, в которой функции из программы 12.2 для ин- 
терфейса таблицы символов используются применительно к трудному или крайне 
нежелательному случаю, который может возникнуть в реальных приложениях. Про- 
стыми примерами являются уже упорядоченные файлы, файлы, упорядоченные в об- 
ратном порядке, файлы с одинаковыми ключами и файлы, которые состоят только 
из двух различных значений. 

о 12.26 Какую реализацию таблицы символов следовало бы использовать для прило- 
жения, в котором в произвольном порядке выполняется ІО 2 операций іпзегі, 10 3 опе- 
раций зеагск и ІО 4 операций зеіесіі Обоснуйте ответ. 

о 12.27 (В действительности это упражнение состоит из пяти упражнений). Дайте от- 
вет на вопрос упражнения 12.26 для пяти других вариантов сочетания операций и 
частоты их использования. 

12.28 Алгоритм самоорганизующегося поиска — это алгоритм, которые изменяет по- 
рядок элементов так, чтобы часто запрашиваемые элементы, скорее всего, находи- 
лись в начале поиска. Измените реализацию операции зеагсИ для упражнения 12.20, 
чтобы при каждом попадании при поиске она выполняла следующее действие: по- 
мещала найденный элемент в начало списка, перемещая на одну позицию вправо 
все элементы, расположенные между началом списка и освободившейся позицией. 
Эта процедура называется эвристическим перемещением вперед. 
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о 12.29 Укажите порядок ключей после того, как элементы с ключами Е А 8 V (2 II 
Е 8 Т I О N помещаются в первоначально пустую таблицу, когда после выполне- 
ния операции зеагсН вызывается іпзегі по причине отсутствия элемента, причем при- 
меняется эвристический самоорганизующийся поиск с перемещением вперед (см. 
упражнение 12.28). 

12.30 Создайте программу-драйвер для методов самоорганизующегося происка, в 
которой функция іпвегі используется для заполнения таблицы символов N ключа- 
ми, а затем выполняется \01Ѵ поисков для обнаружения элементов в соответствие с 
заранее определенным распределением вероятностей. 

12.31 Воспользуйтесь решением упражнения 12.30 для сравнения времени выполне- 
ния реализации из упражнения 12.20 и времени выполнения реализации из упраж- 
нения 12.28 для N = 10, 100 и 1000, используя распределение вероятностей, при ко- 
тором вероятность успешного выполнения операции зеагсИ для /-го наибольшего 
ключа равна 1 / 2' при 1 < і < N. 

12.32 Выполните упражнение 12.31 для распределения вероятностей, при котором 
вероятность успешного выполнения операции зеагсИ для /-го наибольшего ключа оп- 
ределяется соотношением Н уѵ/ / при 1 < і < N. Это распределение называется за- 
коном Зипфа. 

12.33 Сравните эвристическое перемещение вперед с оптимальной организацией для 
распределений, указанных в упражнениях 12.31 и 12.32, поддерживающей размеще- 
ние ключей в порядке возрастания (в порядке уменьшения ожидаемой частоты об- 
ращения к ним). То есть, в упражнении 12.31 вместо решения из упражнения 12.20 
воспользуйтесь программой 12.5. 


12.4 Бинарный поиск 

В реализации последовательного поиска на базе 
массивов общее время поиска на больших наборах 
элементов можно значительно уменьшить, исполь- 
зуя процедуру поиска, основанную на стандартном 
подходе "разделяй и властвуй" (см. раздел 5.2). Для 
этого набор элементов необходимо разделить на 
две части, определить, к какой из двух частей при- 
надлежит ключ поиска, а затем сосредоточить свои 
усилия именно на этой части. Рациональный способ 
разделения наборов элементов на части состоит в 
поддержке элементов в отсортированном виде с 
последующим использованием индексов в отсорти- 
рованном массиве для определения части массива, 
над которой будет выполняться дальнейшая работа. 
Такая технология поиска называется бинарным поис- 
ком . Программа 12.7 представляет рекурсивную ре- 
ализацию этой основополагающей стратегии. В про- 
грамме 2.2 показана нерекурсивная реализация 
метода, при которой никаких стеков не требуется, 
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РИСУНОК 12.1 БИНАРНЫЙ ПОИСК 

При бинарном поиске для 
нахождения искомого ключа Ь в 
этом примере файла используются 
только три итерации. В первом 
вызове алгоритм сравнивает Ь с 
ключом в середине файла — С. 
Поскольку Ь больше этого ключа , в 
ходе следующей итерации 
исследуется правая половина файла. 
Затем , поскольку Ь меньше М } 
находящегося в середине правой 
половины , в ходе третьей итерации 
исследуется подфайл , состоящий из 
трех элементов , в который входят 
ключи Н, I и Ь. После выполнения 
еще одной итерации размер 
подфайла становится равным / и 
алгоритм находит ключ Ь. 
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РИСУНОК 12.2 БИНАРНЫЙ ПОИСК 

При бинарном поиске требуется только семь 
итераций для нахождения записи в файле , 
который состоит из 200 элементов. Размеры 
подфайлов описываются последовательностью 
200, 99, 49, 24, 11, 5, 2, 1; несложно 
заметить, что каждая из исследуемых частей 
несколько меньше предыдущей. 




поскольку рекурсивная функция в программе 12.7 завершается рекурсивным вызо- 
вом. 

На рис. 12.1 показаны подфайлы, исследуемые в ходе бинарного поиска в неболь- 
шой таблице; на рис. 12.2 приведен больший пример. В ходе каждой итерации отбра- 
сывается несколько больше половины таблицы, поэтому количество требуемых ите- 
раций мало. 

Лемма 12.5 При бинарном поиске никогда не используется более чем |_1§УѴІ + 1 сравне- 
ний (для выявления попадания или промаха). 

См. лемму 2.3. Интересно отметить, что максимальное количество сравнений, ис- 
пользуемых для бинарного поиска в таблице, размер которой равен УѴ, в точности 
равен количеству бит в двоичном представлении числа УѴ, поскольку операция сдвига 
одного бита вправо преобразует двоичное представление N в двоичное представле- 
ние числа |_ЛѴ 2\ (см. рис. 2.6). 

Поддержка таблицы в отсортированном виде, как это делается при сортировке 
вставками, приводит к тому, что время выполнения становится квадратичной функ- 
цией от количества операций іпзеп , но эта стоимость может оказаться приемлемой или 
ею даже можно пренебречь, если количество операций зеагсН очень велико. В типич- 
ной ситуации, когда все элементы (или большая их часть) доступны до начала поис- 
ка, можно построить ( сопзігисі ) таблицу символов с помощью конструктора, который 
принимает массив в качестве аргумента и использует один из стандартных методов 
сортировки, описанных в главе 6 и последующих главах, для сортировки таблицы во 
время инициализации. После этого обновление таблицы может выполняться различ- 
ными способами. Например, можно поддерживать порядок во время вставки, как это 
делается в программе 12.5 (см. также упражнение 12.21), либо объединить вставляе- 
мые элементы в пакет, выполнить сортировку и объединить с существующей табли- 
цей (как описано в упражнении 8.1). Всякое обновление может быть связано со встав- 
кой элемента, ключ которого меньше ключа какого-либо из элементов таблицы, 
поэтому может потребоваться перемещение любого элемента с целью освобождения 
места. Упомянутая вероятность высокой стоимости обновления таблицы — наиболь- 
ший недостаток использования бинарного поиска. С другой стороны, существует ог- 
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ромное число приложений, в которых статическая таблица может быть заранее отсор- 
тированой и в этом случае, благодаря быстрому доступу, обеспечиваемому такими 
реализациями, как программа 12.7, бинарный поиск является наиболее предпочти- 
тельным методом. 

Если новые элементы требуется вставлять динамически, может показаться, что для 
этого нужна связная структура. Однако сам по себе связный список не позволяет со- 
здавать эффективную реализацию, поскольку эффективность бинарного поиска зависит 
от возможности быстро попасть в середину любого подмассива через индексирование, 
а единственный способ попасть в середину связного списка — это отслеживание ссы- 
лок. Для суммирования эффективности бинарного поиска и гибкости связных структур 
требуются более сложные структуры данных, которые мы начнем исследовать вскоре. 

Если в таблице присутствуют дублированные ключи, бинарный поиск можно рас- 
ширить до поддержки операций на таблице символов для подсчета количества элемен- 
тов с данным ключом или возврата их в виде группы. Несколько элементов, ключи ко- 
торых совпадают с искомым, образуют в таблице непрерывный блок (поскольку таблица 
упорядочена), и в программе 12.7 успешный поиск завершится где-то внутри этого бло- 
ка. Если приложению требуется доступ ко всем элементам подобного рода, в программу 
можно добавить код для выполнения просмотра в обоих направлениях от точки за- 
вершения поиска, а также код для возврата двух индексов, ограничивающих элементы, 
ключи которых равны искомому ключу. В этом случае время выполнения поиска окажет- 
ся пропорциональным 1&7Ѵ плюс количество найденных элементов. Аналогичный подход 
используется для решения более общей задачи поиска в диапазоне , которая состоит в на- 
хождении всех элементов, ключи которых попадают в указанный интервал. Подобные 
расширения базового набора операций с таблицами символов рассматриваются в части 6. 

Программа 12.7 Бинарный поиск (в таблице символов, основанной на массиве) 

Эта реализация функции поиска (зеагсН) использует процедуру рекурсивного би- 
нарного поиска. Для выяснения, присутствует ли заданный ключ ѵ в отсортирован- 
ном массиве, функция сначала сравнивает ѵ с элементом, находящимся в средней 
позиции. Если ѵ меньше, он должен быть в в первой половине массива, а если боль- 
ше — то во второй. 

Массив должен быть отсортированным. Эта функция может рассматриваться в ка- 
честве замены функции зеагсй из программы 12.5, которая обеспечивает динами- 
ческую сортировку во время вставки. Можно было бы также добавить конструктор 
таблицы символов, который получал бы массив в качестве аргумента, а затем стро- 
ил бы таблицу символов на основе элементов входного массива и сортировал бы ее 
для целей поиска с применением одной из стандартных процедур сортировки. 

ргіѵаѣе : 

Іѣет зеагсЬК(іпЬ 1, іп'Ь г, Кеу ѵ) 

{ (1 > г) геЬигп пиІІІ'Ьет; 

іп'Ь т = (1+г)/2; 

(ѵ == з'ЬСт] .кеу () ) ге^игп зЬ[т] ; 

(1 == г) ге'Ьигп пиІІІ'Ьет; 

(ѵ < зЬ[т].кеу()) 
геѣигп зеагсЬК(1, т-1, ѵ) ; 
еізе геѣигп зеагсЬК(т+1, г, ѵ) ; 

} 

риЫіс : 

І^ет зеагсЬ(Кеу V) 

{ геѣигп зеагсЬК(0, N-1, ѵ) ; } 
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Последовательность сравнений, выполняемых ал- 
горитмом бинарного поиска, предопределена: конк- 
ретная последовательность используется в зависимо- 
сти от значения искомого ключа и значения N. 

Сравнения могут быть описаны в виде структуры би- 
нарного дерева, подобной приведенной на рис. 12.3. 

Это дерево аналогично использованному в главе 8 
для описания размеров подфайлов во время сорти- 
ровки слиянием (рис. 8.3). В бинарном поиске ис- 
пользуется один путь в дереве, тогда как при сорти- 
ровке слиянием — все пути. Это дерево является 
статическим и неявным; в разделе 12.5 будут рас- 
сматриваться алгоритмы, в которых для выполнения 
поиска используется динамическая, явно построен- 
ная структура бинарного дерева. 

На верхней диаграмме показан поиск в файле, 
состоящем из 15 элементов, проиндексированных от 
О до 14. Мы просматриваем средний элемент 
(индекс 7), затем (рекурсивно) просматриваем левое 
поддерево, если искомый элемент меньше него, и 
правое — если он больше. Каждый поиск соответ- 
ствует пути, проходящему по дереву сверху вниз; на- 
пример, поиск элемента, который располагается 
между элементами 10 и 11, потребовал бы просмот- 
ра элементов 7, 11, 9, 10. Для файлов с размерами, 
которые не являются на 1 меньше степени числа 2, 
последовательность не столь симметрична, что не- 
сложно заметить на нижней диаграмме, нарисован- 
ной для 12 элементов. 

Одно из возможных усовершенствований бинарного поиска — более точное пред- 
положение о размещении ключа поиска в текущем интервале (вместо слепого срав- 
нения его со средним элементом на каждом шаге). Эта тактика имитирует способ по- 
иска имени в телефонном справочнике или слова в словаре: если искомая запись 
начинается с буквы, находящейся в начале алфавита, поиск выполняется вблизи на- 
чала книги, но если она начинается с буквы, находящейся в конце алфавита, поиск 
выполняется в конце книги. Для реализации данного метода, называемого интерпо- 
ляционным поиском (ШегроШоп зеагсН ), программу 12.7 потребуется изменить следую- 
щим образом: оператор 

ш = (1+г) /2 

заменяется на оператор 

т = 1+ (ѵ- [1] .кеу () ) * (г— 1) / (а[г] .кеу () -а[1] .кеу () ) ; 



РИСУНОК 12.3 
ПОСЛЕДОВАТЕЛЬНОСТЬ 
СРАВНЕНИЙ ПРИ БИНАРНОМ 
ПОИСКЕ 

На этих диаграммах деревьев 
типа "разделяй и властвуй " 
показана последовательность 
индексов для сравнений при 
бинарном поиске. 
Последовательности зависят 
только от размера исходного 
файла , а не значений ключей в 
файле. Эти деревья несколько 
отличаются от деревьев , 
соответствующих сортировке 
слиянием и аналогичным 
алгоритмам (рис. 5.6 и 8.3), 
поскольку расположенный в 
корне элемент в поддеревья не 
включается. 
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Для обоснования изменения отметим, что выражение (/ + г)/ 2 равнозначно вы- 
ражению 1 +—(г-1) : мы вычисляем середину интервала, добавляя клевой граничной 
точке половину размера интервала. Использование интерполяционного поиска сво- 
дится к замене в этой формуле коэффициента — ожидаемой позицией ключа — а 

именно (ѵ- кі) / (к г - кі), где к { и к г означают значения а[1].кеу() и а[г].кеу(), соот- 
ветственно. При этом предполагается, что значения ключей являются числовыми и 
равномерно распределенными. 

Можно показать, что при интерполяционном поиске в файлах с произвольными 
ключами для каждого поиска (попадания или промаха) используется менее 1§ 1§УѴ 
сравнений. Доказательство этого утверждения выходит далеко за рамки этой книги. Эта 
функция растет очень медленно и на практике ее можно считать постоянной: если УѴ 
равно 1 миллиарду, то 1§ 1§УѴ < 5. Таким образом, любой элемент можно найти, выпол- 
нив только несколько обращений (в среднем) — - это существенное достижение по срав- 
нению с бинарным поиском. Для ключей, которые распределены не вполне произволь- 
но, производительность интерполяционного поиска еще выше. Действительно, 
граничным случаем является метод поиска с использованием индексирования по клю- 
чам, описанный в разделе 12.2. 

Однако интерполяционный поиск в значительной степени основывается на предпо- 
ложении, что ключи распределены во всем интервале более-менее равномерно — в про- 
тивном случае, что обычно и имеет место на практике, метод окажется неэффективным. 
Кроме того, для его реализации требуются дополнительные вычисления. Для неболь- 
ших значений УѴ стоимость обычного бинарного поиска (1§УѴ) достаточно близка к сто- 
имости интерполяционного поиска (1§ 1§УѴ), и поэтому вряд ли стоит использовать пос- 
ледний метод. С другой стороны, интерполяционный поиск определенно заслуживает 
внимания при работе с большими файлами, в приложениях, в которых сравнения вы- 
полняются особенно часто, и при использовании внешних методов, сопряженных с 
большими затратами на доступ. 

Упражнения 

> 12.34 Реализуйте нерекурсивную функцию бинарного поиска (см. программу 12.7). 

12.35 Нарисуйте деревья, которые соответствуют рис. 12.3 для УѴ= 17 и УѴ= 24. 

о 12.36 Найдите значения УѴ, для которых бинарный поиск в таблице символов раз- 
мером УѴ становится в 10, 100 и 1000 раз быстрее последовательного поиска. Пред- 
скажите значения аналитически и проверьте их экспериментально. 

12.37 Предположите, что вставки в динамическую таблицу символов размера УѴ ре- 
ализуются методом сортировки вставками, но для выполнения операции зеагск ис- 
пользуется бинарный поиск. Предположите, что поиск выполняется в 1000 раз чаще 
вставки. Определите в процентах долю времени, затрачиваемую на вставку, для 
ЛГ= Ю 3 , ІО 4 , ІО 5 и 10 6 . 

12.38 Разработайте реализацию таблицы символов, в которой используется бинар- 
ный поиск и "ленивая” вставка, а также поддерживаются операции сопзігисі , соипі, 
зеагск, іпзегі и зогі, прибегнув к следующей стратегии. Храните большой отсорти- 
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рованный массив для основной таблицы символов и неупорядоченный массив для 
недавно вставленных элементов. При вызове функции §еагск отсортируйте недав- 
но вставленные элементы (если таковые существуют), объедините их с основной 
таблицей, а затем воспользуйтесь бинарным поиском. 

12.39 Добавьте "ленивое" удаление в реализацию, созданную в упражнении 12.38. 

12.40 Ответьте на вопрос упражнения 12.37 для реализации из упражнения 12.38. 

о 12.41 Реализуйте функцию, аналогичную бинарному поиску (программа 12.7), ко- 
торая возвращает количество элементов в таблице символов с ключами, равными 
данному. 

12.42 Создайте программу, которая при заданном значении N создает последователь- 
ность N макроинструкций, проиндексированных от 0 до N — \ , в форме 
сотраге(1, Н), где /- ая инструкция в списке означает "сравнить ключ поиска со зна- 
чением индекса і в таблице; затем сообщить о попадании при поиске, если они 
равны, выполнить /- ую инструкцию, если он меньше, и Н-ую инструкцию, если он 
больше" (индекс 0 зарезервируйте на случай промаха при поиске). Необходимо, 
чтобы последовательность обладала тем свойством, что для любого поиска долж- 
но выполняться столько же операций сравнения, как и при бинарном поиске в 
этом же наборе данных. 

• 12.43 Расширьте макрос, созданный в упражнении 12.42, чтобы программа созда- 
вала машинный код, выполняющий бинарный поиск в таблице размером N при 
наименьшем возможном количестве машинных инструкций на одно сравнение. 

12.44 Предположите, что а[і]==10*і для 1 < N. Сколько позиций в таблице иссле- 
дуются интерполяционным поиском во время неуспешного поиска 2 к~ 1? 

• 12.45 Найдите значения N, для которых интерполяционный поиск в таблице сим- 
волов размером N выполняется в 1, 2 и 10 раз быстрее бинарного поиска, при ус- 
ловии произвольности ключей. Предскажите значения аналитически и проверьте их 
экспериментально. 

12.5 Деревья бинарного поиска 

Для решения проблемы излишне высоких затрат на вставку в качестве основы для 
реализации таблицы символов используется явная древовидная структура. 

Лежащая в основе структура данных позволяет разрабатывать алгоритмы с высокой 
средней производительностью выполнения операций зеагсН, іпзегі, зеіесі и $огі в табли- 
цах символов. Этот метод используется во множестве приложений и в компьютерных 
науках считается одним из наиболее фундаментальных. 

В главе 5 уже рассматривались деревья, тем не менее, полезно еще раз вспомнить 
терминологию. Определяющее свойство дерева (ігее) заключается в том, что каждый узел 
указывается только одним другим узлом, называемым родительским (рагепі). Определя- 
ющее свойство бинарного дерева — наличие у каждого узла левой и правой связей. Связи 
могут указывать на другие двоичные деревья или на внешние (ехгегпаі) узлы, которые не 
имеют связей. Узлы с двумя связями называются также внутренними (іпіетаі) узлами. Для 
выполнения поиска каждый внутренний узел имеет также элемент со значением клю- 
ча, а связи с внешними узлами называются нулевыми (пиіі) связями. Значения ключей 
во внутренних узлах сравниваются в ключом поиска и управляют протеканием поис- 
ка. 
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Лемма 12.2 Дерево бинарного поиска (В8Т) — это бинарное дерево , с каждым из 
внутренних узлов которого связан ключ , причем ключ в любом узле больше (или равен) 
ключам и во всех узлах левого поддерева этого узла и меньше (или равен) ключам во всех 
узлах правого поддерева этого узла. 

В программе 12.8 ВЗТ-деревья используются для реализации операций зеагсН, 
іпзеп, сопзігисі и соипі. В первой части реализации узлы в ВЗТ-дереве определяются 
как содержащие элемент (с ключом), левую и правую связи. Кроме того, для обеспе- 
чения энергичной реализации операции соипі программа поддерживает поле, содер- 
жащее количество узлов в дереве. Левая связь указывает на ВЗТ-дерево с элемента- 
ми с меньшими (или равными) ключами, а правая — на ВЗТ-дерево с элементами с 
большими (или равными) ключами. 

Программа 12.8 Таблица символов на базе дерева бинарного поиска 

В этой реализации функции зеагсЬ и іпзегі используют приватные рекурсивные 
функции зеагсНК и іпзегІК, которые непосредственно отражают рекурсивное опре- 
деление ВЗТ-дерева. Обратите внимание на использование аргумента ссылки в 
функции іпзегіК (см. текст). Ссылка ИеасІ указывает на корень дерева. 

ЪетрІаЪе <с1азз Нет, сіазз Кеу> 
сіазз ЗТ 

{ 

ргіѵаЬе : 

З'Ьгис'Ь по сіе 

{ Пет Нет; по сіе *1, *г; 

посіе(Пет х) 

{ Нет = х ; 1 = 0; г = 0; } 

} ; 

Ьуресіе^ по сіе *1іпк; 

Ііпк Ьеасі; 

Нет пиІІПет; 

Нет зеагсЬК(1іпк Ь, Кеу ѵ) 

{ з.И (Ь == 0) геЪигп пиІІНет; 

Кеу Ь = Ь->Иет. кеу () ; 

ІИ (ѵ == Ь) ге^игп Ь->Иет; 

ІИ (ѵ < Ь) геѣигп зеагсЬК (Ь->1 , ѵ) ; 
еізе гвѣит зеагсЬК (Ь->г , ѵ) ; 

} 

ѵоісі іпзегЬК (1іпк& Ь, Пет х) 

{ іі: (Ь == 0) { Ь = пеѵ посіе (х) ; ге*Ьигп; } 

ІИ (х.кеу() < Ь->Иет. кеу () ) 
іпзегЬК (Ь->1 , х) ; 
еізе іпзеИК (Ь->г , х) ; 

} 

риЫіс : 

ЗТ(іп , Ь тахЛ) 

{ Ьеасі = 0 ; } 

Пет зеагсЬ(Кеу ѵ) 

{ геѣигп зеагсЬК (Ьеасі, ѵ) ; } 

ѵоісі іпзегѣ(Нет х) 

{ іпзег ЪК (Ьеасі , х) ; } 

}; 
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При наличии этой структуры рекурсивный алго- 
ритм поиска ключа в В$Т-дереве становится очевид- 
ным: если дерево пусто, имеет место промах при 
поиске; если ключ поиска равен ключу в корне, 
имеет место попадание при поиске. В противном 
случае выполняется поиск (рекурсивно) в соответ- 
ствующем поддереве. Функция §еагсНК в программе 
12.8 непосредственно реализует этот алгоритм. Мы 
вызываем рекурсивную подпрограмму, которая при- 
нимает дерево в качестве первого аргумента и ключ 
в качестве второго, начиная с корня дерева и иско- 
мого ключа. На каждом шаге гарантируется, что 



никакие части дерева, кроме текущего поддерева, 
не могут содержать элементы с искомым ключом. 

Подобно тому как при бинарном поиске на каж- 
дой итерации размер интервала уменьшается чуть бо- 
лее чем в два раза, текущее поддерево в дереве бинар- 
ного поиска меньше предшествующего (в идеальном 
случае приблизительно вдвое). Процедура завершает- 
ся либо в случае нахождения элемента с искомым 
ключом (попадание при поиске), либо когда текущее 
поддерево становится пустым (промах при поиске). 

На диаграмме в верхней части рис. 12.4 проиллю- 
стрирован процесс поиска для примера дерева. Начи- 
ная с верхней части, процедура поиска в каждом узле 
приводит к рекурсивному вызову для одного из до- 
черних узлов этого узла; таким образом, поиск опре- 
деляет путь по дереву. В случае попадания при поис- 
ке путь завершается в узле, содержащем ключ, а в 
случае промаха путь завершается во внешнем узле, 
как показано на средней диаграмме на рис. 12.4. 

В программе 12.8 используется 0 связей для пред- 
ставления внешних узлов и приватные данные — 
член Ьеай, который является ссылкой на корень дере- 
ва. Для конструирования пустого ВЗТ-дерева значе- 
ние Ьеаё устанавливается равным 0. Можно было бы 
также использовать фиктивный узел в корне и еще 
один для представления всех внешних узлов в различ- 
ных комбинациях, подобных рассмотренным для 
связных списков в табл. 3.1 (см. упражнение 12.53). 

Функция поиска в программе 12.8 столь же проста, 



РИСУНОК 12.4 ПОИСК И ВСТАВКА 
В ДЕРЕВО БИНАРНОГО ПОИСКА 

В процессе успешного поиска Не 
этом примере дерева (вверху) мы 
перемещаемся вправо от корня 
(поскольку Н больше чем А), затем 
влево в правом поддереве (поскольку 
Н меньше чем 5) и т.д., продолжая 
перемещаться вниз по дереву , пока 
не встретится Н В процессе 
неуспешного поиска М в этом 
примере дерева ( в центре) мы 
перемещаемся вправо от корня 
(поскольку М больше чем А), затем 
влево в правом поддереве корня 
(поскольку М меньше чем В) и т.д., 
продолжая перемещаться вниз по 
дереву, пока не встретится 
внешняя связь слева от N в нижней 
части диаграммы. Для вставки М 
после обнаружения промаха при 
поиске достаточно просто 
заменить связь, которая прерывает 
поиск, связью с М (внизу). 


как и обычный бинарный поиск; существенная особенность В8Т-деревьев заключается 


в том, что операцию ітеП легко реализовать в виде операции зеагск. Рекурсивная функ- 


ция ііюегіК для вставки нового элемента в В5Т-дерево следует логике, аналогичной ис- 


пользованной при разработке функции зеагсЬК, и использует ссылочный аргумент Ь для 
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построения дерева: если дерево пусто, Ь устанавливается рав- 
ным ссылке на новый узел, содержащий элемент; если ключ 
поиска меньше ключа в корне, элемент вставляется в левое 
поддерево, в противном случае элемент вставляется в правое 
поддерево. То есть, аргумент ссылки изменяется только в пос- 
леднем рекурсивном вызове, когда вставляется новый элемент. 
В разделе 12.8 и в главе 13 будут изучаться более сложные дре- 
вовидные структуры, которые естественным образом представ- 
ляются с помощью той же рекурсивной схемы, но которые 
чаще изменяют ссылочный аргумент. 

На рис. 12.5 и 12.6 показан пример создания В8Т-дерева 
путем вставки последовательности ключей в первоначально 
пустое дерево. Новые узлы присоединяются к нулевым свя- 
зям в нижней части дерева, а в остальном структура дерева 
никак не изменяется. Поскольку каждый узел имеет две свя- 
зи, дерево растет скорее в ширину, нежели в высоту. 

При использовании В$Т-деревьев реализация функции 
зон требует незначительного объема дополнительной рабо- 
ты. Построение В5Т-дерева сводится к сортировке элемен- 
тов, поскольку при соответствующем рассмотрении В$Т-де- 
рево представляет отсортированный файл. На приведенных 
выше рисунках ключи отображаются на странице слева на- 
право (если не обращать внимания на их расположение по 
высоте и связи). Программа работает только со связями, но 
простой поперечный обход, по определению, обеспечивает 
выполнение этой задачи, что демонстрируется рекурсивной 
реализацией функции 8Ьо\ѵК в программе 12.9. Для отобра- 
жения элементов в В5Т-дереве в порядке их ключей мы ото- 
бражаем элементы в левом поддереве в порядке их ключей 
(рекурсивно), затем корень, и далее элементы в правом под- 
дереве в порядке их ключей (рекурсивно). 

Программа 12.9 Сортировка с помощью В5Т-дерева 

При поперечном обходе В5Т-дерева элементы посещаются в 
порядке следования их ключей. В этой реализации функция- 
член зНоѵѵ элемента Кет используется для вывода элементов в 
порядке следования их ключей. 

ргіѵаЪе : 

ѵоісі зЬоѵгК(1іпк Ь, оз1:геат& оз) 

{ 

(Ь == 0) геѣигп; 
зЬоѵК (Ь->1 , оз) ; 

Ь->іѣет. зЬоѵ (оз) ; 
зЬоѵК(Ь->г , оз ) ; 

} 

риЫіс : 

ѵоісі зЬоѵ (озѣгеат& оз) 

{ зЬоѵК (Ьеасі, оз) ; } 









РИСУНОК 12.5 СОЗДАНИЕ 
ДЕРЕВА БИНАРНОГО 
ПОИСКА 

Эта последовательность 
отражает результат 
вставки ключей А 8 Е К 
СНШв первоначально 
пустое ВЗТ-дерево. 
Каждая вставка следует 
за промахом при поиске в 
нижней части дерева. 
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Как упоминалось в разделе 12.1, периодически, в 
случае необходимости систематического посещения 
каждого из элементов таблицы символов, мы будем об- 
ращаться к общей операции ѵш/ для таблиц символов. 
Применительно к В8Т-деревьям можно посетить эле- 
менты в порядке следования их ключей, заменив в 
только что приведенном описании операцию "$Ьо\ѵ" 
операцией "ѵізіГ и, возможно, обеспечив передачу в 
функцию посещения элемента в качестве параметра 
(см. раздел 5.6). 

Нерекурсивный подход при обдумывании реализа- 
ции поиска и вставки в В8Т-деревьях несомненно пред- 
ставляет интерес. При нерекусивной реализации про- 
цесс поиска состоит из цикла, в котором искомый ключ 
сравнивается с ключом в корне, затем выполняется пе- 
ремещение влево, если ключ поиска меньше, и вправо 
— если он больше ключа в корне. Вставка состоит из 
обнаружения промаха при поиске (завершающегося на 
пустой связи) и последующей замены пустой связи ука- 
зателем на новый узел. Этот процесс соответствует яв- 
ному манипулированию связями, расположенными 
вдоль пути вниз по дереву (см. рис. 12.4). В частности, 
чтобы иметь возможность вставить новый узел в нижней 
части дерева, необходимо сохранять связь с родительс- 
ким узлом текущего узла, как имеет место в реализации 
в программе 12.10. Как обычно, рекурсивная и нере- 
курсивная версии, по существу, эквивалентны, причем 
понимание обоих подходов способствует углублению 
наших представлений об алгоритмах и структурах дан- 
ных. 

Программа 12.10 Вставка в В5Т-дерево (нерекурсивная) 

Вставка элемента в В5Т-дерево эквивалентна выполнению 
неуспешного поиска этого элемента и последующего при- 
соединения нового узла элемента вместо нулевой связи в 
месте завершения поиска. Присоединение нового узла тре- 
бует отслеживания родительского узла р текущего узла я в 
процессе перемещения вниз по дереву. При достижении 
нижней части дерева р указывает на узел, связь которого 
необходимо изменить так, чтобы она указывала на новый 
вставленный узел. 

ѵоісі іпзегЬ (ІЬет х) 

{ Кеу ѵ = х . кеу ( ) ; 

(Ьеасі == 0) 

{ Ьеасі = пеѵг посіе (х) ; геЬигп; } 

Ііпк р = Ьеасі; 

іот (Ііпк ч = р; ч !=0; Р = Ч?Ч р) 
д = (ѵ < д->іЬет. кеу () ) ? д->1 : д->г; 





РИСУНОК 12.6 СОЗДАНИЕ 
ДЕРЕВА БИНАРНОГО 
ПОИСКА (ПРОДОЛЖЕНИЕ) 

Эта последовательность 
отражает вставку ключей 
С X М Р Ь в В8Т-дерево , 
создание которого было 
показано на рис. 12.5. 
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(ѵ < р->і1:ет.3сѳу () ) р->1 = пеѵг 
посіѳ (х) ; 

еізѳ р->г = пѳѵг посіѳ (х) ; 


Функции В8Т-дерева в программе 12.8 не прове- 
ряют явно наличие элементов с дублированными 
ключами. При вставке нового узла, ключ которого 
равен какому-либо ключу, уже вставленному в дере- 
во, узел помещается справа от присутствующего в 
дереве узла. Одним из побочных эффектов подобно- 
го соглашения является то, что узлы с дублирован- 
ными ключами не отображаются в дереве последова- 
тельно (см. рис. 12.7) Л Однако, их можно найти, 
продолжив поиск с точки, в которой функция $еагсЬ 
находит первое совпадение, пока не встретится 
связь 0. Как упоминается в разделе 9.1, существует 
несколько других возможностей обработки элемен- 
тов с одинаковыми ключами. 

Деревья бинарного поиска — аналог быстрой 
сортировки. Узел в корне дерева соответствует раз- 
деляющему элементу при быстрой сортировке (ни- 
какие ключи слева от него не могут быть больше, и 
никакие ключи справа не могут быть меньше него). 
В разделе 12.6 будет показано, как это наблюдение 
связано с анализом свойств деревьев. 


Упражнения 

[> 12.46 Нарисуйте ВЗТ-дерево, образующееся при 
вставке элементов с ключами ЕА8Ѵ011ТІО 
N в первоначально пустое дерево. 




РИСУНОК 12.7 ДУБЛИРОВАННЫЕ 
КЛЮЧИ В ДЕРЕВЬЯХ БИНАРНОГО 
ПОИСКА 

Когда ВЗТ-дерево содержит 
записи с дублированными ключами 
(вверху), они о к сбываются 
разбросанными по всему дереву , 
что иллюстрируется 
выделенными узлами А Все 
дублированные ключи 
размещаются вдоль пути поиска 
ключа от корня до внешнего узла , 
и поэтому они легкодоступны. 
Однако , во избежание путаницы 
при использовании, типа ' А 
располагается под С", в примерах 
используются различные ключи 
(внизу). 


> 12.47 Нарисуйте ВЗТ-дерево, образующееся при вставке элементов с ключами Е 
А8Ѵ<ЗІІЕ8ТІС^в первоначально пустое дерево. 


[> 12.48 Укажите количество сравнений, необходимых для помещения ключей Е А 8 
V^^Е8ТIОNв первоначально пустую таблицу символов за счет использо- 
вания ВЗТ-дерева Считайте, что операция зеагсН выполняется для каждого ключа, 
вслед за чем выполняется операция іпзегі для каждого промаха при поиске, как 
имеет место в программе 12.3. 


о 12.49 Вставка ключей в порядке А8ЕКН^6Св первоначально пустое де- 
рево также дает верхнюю часть дерева, показанного на рис. 12.6. Приведите де- 
сять других вариантов порядка этих ключей, которые обеспечат тот же результат. 



Частъ 4, Поиск 


12.50 Реализуйте функцию зеагсЬіпзегі для В$Т-деревьев (программа 12.8). Фун- 
кция должна искать в таблице символов элемент с таким же ключом, как и у дан- 
ного элемента, а затем вставлять элемент, если не находит ни одного такого эле- 
мента. 

> 12.51 Создайте функцию, которая возвращает количество элементов в В$Т-дере- 
ве, имеющих ключ, равный данному. 

12.52 Предположите, что заблаговременно известно, насколь часто должно выпол- 
няться обращение к ключам поиска в бинарном дереве. Должны ли ключи вставлять- 
ся в дерево в порядке возрастания или убывания ожидаемой частоты обращения к 
ним? Обоснуйте ответ. 

о 12.53 Упростите код поиска и вставки в реализации В$Т-дерева программы 12.8, 
воспользовавшись двумя фиктивными узлами: Ьеасі, содержащим элемент с зарезер- 
вированным ключом, который меньше всех остальных и правая связь которого ука- 
зывает на корень дерева; и 2 , содержащим элемент со служебным ключом, который 
больше всех остальных, и левая и правая связи которого указывает на него самого, 
причем он представляет все внешние узлы (внешние узлы являются связями с г). 
(См. табл. 3.1). 

12.54 Измените реализацию В$Т-дерева в программе 12.8 для хранения элементов 
с дублированными ключами в связных списках, размещенных в узлах дерева. Изме- 
ните интерфейс, чтобы операция зеагсИ работала подобно операции зон (для всех 
элементов с ключом поиска). 

12.55 В нерекурсивной процедуре вставки в программе 12.10 для определения того, 
какую связь узла р необходимо заменить новым узлом, используется избыточное 
сравнение. Приведите реализацию, в которой для исключения этого сравнения ис- 
пользуются указатели на связи. 

12.6 Характеристики производительности 

деревьев бинарного поиска 

Время выполнения алгоритмов обработки В5Т-деревьев зависит от форм деревьев. 
В лучшем случае дерево может быть полностью сбалансированным и содержать прибли- 
зительно 1§7Ѵ узлов между корнем и каждым из внешних узлов, но в худшем случае в 
каждый из путей поиска может содержать N узлов. 

Можно также надеяться, что в среднем время поиска также будет связано с коли- 
чеством узлов логарифмической зависимостью, поскольку первый вставляемый элемент 
становится корнем дерева. Если N ключей должны быть вставлены в произвольном по- 
рядке, то этот элемент делил бы ключи пополам (в среднем), что дало бы логарифми- 
ческую зависимость времени поиска (при использовании аналогичных рассуждений 
применительно к поддеревьям). Действительно, возможен случай, когда В$Т-дерево 
приводит в точности к тем же сравнениям, что и бинарный поиск (см. упражнение 
12.58). Этот случай был бы наилучшим для данного алгоритма, гарантируя логарифми- 
ческую зависимость времени выполнения для всех видов поиска. В действительно про- 
извольной ситуации корнем может быть любой ключ, и поэтому полностью сбаланси- 
рованные деревья встречаются исключительно редко, соответственно, без особых 
усилий не удастся сохранять дерево полностью сбалансированным после каждой встав- 
ки. Однако полностью несбалансированные деревья также встречаются редко при про- 
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извольных ключах, потому-то в среднем деревья достаточно хорошо сбалансирова- 
ны. В этом разделе мы детализируем это наблюдение. 

В частности, длина пути и высота бинарных деревьев, рассмотренные в разделе 5.5, 
непосредственно связаны с затратами на поиск в В8Т-деревьях. Высота определяет сто- 
имость поиска в худшем случае, длина внутреннего пути непосредственно связана со 
стоимостью попаданий при поиске, а длина внешнего пути непосредственно связана со 
стоимостью промахов при поиске. 

Лемма 12.6 Для обнаружения попадания при поиске в дереве бинарного поиска , образо- 
ванном N произвольными ключами , в среднем требуется около 2 1§/Ѵ~ 1.39 1§7Ѵ сравнений. 


Как упоминалось в разделе 12.3, мы считаем последовательные операции == и < 
одной операцией сравнения. Количество сравнений, использованных для обнару- 
жения попадания при поиске, завершающемся в данном узле, равно 1 плюс рас- 
стояние от этого узла до корня. Таким образом, интересующая величина равна 1 
плюс средняя длина внутреннего пути В$Т-дерева, которую можно проанализи- 
ровать с использованием уже знакомых рассуждений: если С ^ — средняя длина 
внутреннего пути В$Т-дерева, состоящего из N узлов, мы имеем следующее ре- 
куррентное соотношение: 

См = N - 1 4- "77 %(Ц-1 4-Сдг-А;), 


N 


1 <*<ЛГ 


при С\ = 1. Член N — 1 учитывает, что корень увеличивает длину пути для каждо- 
го из остальных N~ 1 узлов на 1; остальная часть выражения вытекает из того, что 
ключ в корне (вставленный первым) с равной вероятностью может быть к - м по ве- 
личине ключом, разбивая дерево на произвольные поддеревья размерами к - Іи 
N — к. Это рекуррентное соотношение почти идентично тому, которое решалось в 
главе 7 для метода быстрой сортировки, и для получения оговоренного результата 
его можно решить так же. 


Лемма 12.7 Для выполнения вставок и обнаружения промахов при поиске в дереве бинар- 
ного поиска , образованном N произвольными ключами , в среднем требуется около 
2 ~ 1 .39 1&/Ѵ сравнений. 


Поиск произвольного ключа в дереве, содержащем N узлов, с равной вероятнос- 
тью может завершиться в любом из N - 1 внешних узлов обнаружением промаха 
при поиске. Эта лемма в сочетании с тем, что разница длин внешнего и внутрен- 



РИСУНОК 12.8 ПРИМЕР ДЕРЕВА БИНАРНОГО ПОИСКА 

В этом В5Т-дереве, которое было построено за счет вставки около 200 произвольных ключей в 
первоначально пустое дерево, ни один поиск не использует более 12 сравнений. Средняя стоимость 
обнаружения попадания при поиске приблизительно равна 10. 
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него пути в любом дереве равна просто 2 N (см. лемму 
5.7), обусловливает оговоренный результат. В любом В8Т- 
дереве среднее количество сравнений, необходимых для 
выполнения вставки или обнаружения промаха, приблизи- 
тельно на 1 больше среднего количества сравнений, необ- 
ходимых для выявления попадания при поиске. 

В соответствии с леммой 12.6 следует ожидать, что затра- 
ты на поиск для В8Т-деревьев должна быть приблизительно 
на 39% выше затрат для бинарного поиска произвольных 
ключей. Но в соответствии с леммой 12.7 дополнительные 
затраты вполне окупаются, поскольку новый ключ может 
быть вставлен почти при тех же затратах — подобная гибкость 
при использовании бинарного поиска не доступна. На рис. 
12.8 показано В8Т-дерево, полученное в результате длинной 
цепи произвольных перестановок. Хотя оно содержит не- 
сколько длинных и несколько коротких путей, его можно 
считать хорошо сбалансированным: для выполнения любого 
поиска требуется менее 12 сравнений, а среднее количество 
сравнений, необходимых для обнаружения произвольного 
попадания при поиске равно 7.00, что сравнимо с 5.74 для 
случая бинарного поиска. 

Леммы 12.6 и 12.7 определяют производительность для 
среднего случая при условии, что порядок ключей произво- 
лен. Если это не так, производительность алгоритма имеет 



тенденцию к снижению. 

Лемма 12.8 В худшем случае для поиска в дереве бинарного по- 
иска с N ключами может требоваться N сравнений. 

На рис. 12.9 и 12.10 показаны два примера наихудших слу- 
чаев В8Т-деревьев. Для этих деревьев поиск с использова- 
нием бинарного дерева ничем не лучше последовательно- 



го поиска с использованием односвязных списков. 

Таким образом, высокая производительность базовой ре- 
ализации таблиц символов с использованием В8Т-дерева тре- 
бует, чтобы ключи в достаточной степени были подобны про- 
извольным ключам, а дерево не содержало длинных путей. 
Более того, наихудший случай не столь уж редко встречает- 
ся на практике — он возникает при вставке ключей в перво- 
начально пустое дерево по порядку или в обратном порядке 
с применением стандартного алгоритма — последователь- 
ность операций, которую мы определено можем предпри- 
нять, не получив никакого явного предупреждения не делать 
этого. В главе 13 исследуются технологии превращения это- 
го худшего случая в крайне маловероятный и полного его 
исключения, превращения всех деревьев в подобные деревь- 


РИСУНОК 12.9 ХУДШИЙ 
СЛУЧАЙ ДЕРЕВА 
БИНАРНОГО ПОИСКА 

Если ключи в ВЕТ-дереве 
вставляются в порядке 
возрастания , дерево 
вырождается в форму , 
эквивалентную 
односвязному списку , 
приводя к квадратичной 
зависимости времени 
создания дерева и к 
линейной зависимости 
времени поиска. 


ям для наилучшего случая, длины всех путей в которых гарантировано определяют- 


ся логарифмической зависимостью. 
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Ни одна из других рассмотренных реализаций таблиц 
символов не может использоваться для выполнения задачи 
вставки в таблицу очень большого количества произволь- 
ных ключей, а затем поиска каждого из них — время вы- 
полнения каждого из методов, описанных в разделах 1 2.2 — 
2.4 определяется квадратичной зависимостью. Более того, из 
анализа следует, что среднее расстояние до узла в бинар- 
ном дереве пропорционально логарифму количества узлов 
в дереве, что позволяет эффективно выполнять смешанные 
наборы операций поиска, вставки и других операций с АТД 
таблицы символов, что и будет вскоре показано. 

Упражнения 

О 12.56 Создайте рекурсивную программу, которая вычисля- 
ет максимальное количество сравнений, требуемых для 
любого поиска в данном В8Т-дереве (высоту дерева). 

О 12.57 Создайте рекурсивную программу, которая вычис- 
ляет максимальное количество сравнений, требуемых 
для попадания при поиске в данном В8Т-дереве (длину 
внутреннего пути дерева, деленную на IV). 

12.58 Приведите последовательность вставок ключей Е А 
8У<311Е8ТІ01Чв первоначально пустое В8Т-де- 
рево, чтобы созданное при этом дерево было эквива- 
лентно бинарному поиску в смысле последовательности 
сравнений, выполняемых при поиске любого ключа в 
В8Т-дереве и при бинарном поиске. 

о 12.59 Создайте программу, которая вставляет набор 
ключей в первоначально пустое В8Т-дерево так, чтобы 
созданное дерево было эквивалентно бинарному поис- 
ку, как описывалось в упражнении 12.58. 

12.60 Нарисуйте все различающиеся по структуре В8Т- 
деревья, образованные после вставки N ключей в перво- 
начально пустое дерево, для 2 < N < 5. 

• 12.61 Определите вероятность того, что каждое из дере- 
вьев в упражнении 12.60 является результатом вставки N 
произвольных различных элементов в первоначально 
пустое дерево. 

• 12.62 Сколько бинарных деревьев, состоящих из N уз- 
лов, имеют высоту Л? Сколько существует различных 
способов вставки N различных ключей в первоначально 
пустое дерево, приводящих к образованию В8Т-дерева с 
высотой А? 









РИСУНОК 12.10 ЕЩЕ ОДИН 
ХУДШИЙ СЛУЧАЙ ДЕРЕВА 
БИНАРНОГО ПОИСКА 

Множество других 
подобных вариантов 
порядка вставки ключей 
приводят к вырождению 
В 5Т -дерева. Тем не менее, 
дерево бинарного поиска , 
образованное произвольно 
упорядоченными ключами , 
скорее всего, окажется 
хорошо сбалансированным. 


о 12.63 Докажите с использованием метода индукции, что разница между длинами 
внешнего и внутреннуго путей в любом бинарном дереве составляет 2УѴ(см. лемму 
5.7). 
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12.64 Определите эмпирически среднее и стандартное отклонение количества 
сравнений, использованных для обнаружения попаданий и промахов при поиске 
в В$Т-дереве, созданном в результате вставки N произвольных ключей в перво- 
начально пустое дерево, для N = ІО 3 , ІО 4 , ІО 5 и ІО 6 . 

12.65 Создайте программу, которая строит і В$Т-деревьев за счет вставки N про- 
извольных ключей в первоначально пустое дерево и вычисляет максимальную 
высоту дерева (максимальное количество сравнений, необходимых для обнаруже- 
ния любого промаха при вставке в любом из / деревьев) для N = ІО 3 , ІО 4 , ІО 5 и ІО 6 
при і ~ 10, 100 и 1000. 

12.7 Реализация индексов при использовании 

таблиц символов 

Во многих приложениях необходимо выполнять поиск в структуре просто с целью 
нахождения элементов без их перемещения. Например, может существовать массив эле- 
ментов с ключами, для которого требуется метод поиска, определяющий в массиве ин- 
декс элемента, соответствующего определенному ключу. Может также требоваться уда- 
ление элемента с данным индексом из структуры поиска с его сохранением в массиве 
для какого-либо другого применения. В разделе 9.6 были рассмотрены преимущества 
обработки индексированных элементов в очередях по приоритету, которые косвенно 
обращаются к данным клиентского массива. Применительно к таблицам символов эта 
же концепция ведет к уже знакомым индексам : внешней по отношению к набору эле- 
ментов поисковой структуры, которая обеспечивает быстрый доступ к элементам с дан- 
ным ключом. В главе 16 будет рассматриваться случай, когда элементы и, возможно, 
даже индексы хранятся во внешнем хранилище; в этом разделе кратко исследуется слу- 
чай, когда и элементы и индексы размещаются в памяти. 

Деревья бинарного поиска можно определить таким образом, чтобы индексы стро- 
ились в точности так же, как при обеспечении косвенного метода для сортировки в 
разделе 6.8 и для сортирующих деревьев в разделе 9.6: необходимо использовать кон- 
тейнер Ішіех для определения элементов В8Т-дерева и обеспечить, чтобы ключи извле- 
кались из элементов, как обычно, через функцию-члена кеу. Более того, для связей 
можно использовать параллельные массивы, как это было сделано для связных спис- 
ков в главе 3. Используются три массива: для элементов, левых связей и правых свя- 
зей. Связи являются индексами массивов (целыми значениями) и ссылки на связи, по- 
добные 

X = х->1 

во всем коде заменяются на ссылки типа 

х = 1[х] 

Этот подход устраняет затраты на динамическое распределение памяти для каж- 
дого узла — элементы занимают массив независимо от функции поиска, и мы зара- 
нее выделяем два целочисленных значения на каждый элемент для хранения связей 
дерева, признавая, что потребуется объем памяти не меньше этого, когда все элемен- 
ты будут помещены в структуру поиска. Память под связи используется не всегда, тем 
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не менее, она всегда готова для использования под- 
программой поиска, не требуя дополнительного вре- 
мени на распределение. Другая важная особенность 
этого подхода заключается в том, что он допускает 
добавление дополнительных массивов (содержащих 
дополнительную связанную с каждым узлом инфор- 
мацию) без какого-либо изменения кода манипули- 
рования деревом. Когда подпрограмма поиска воз- 
вращает индекс элемента, она предоставляет способ 
немедленного доступа ко всей информации, связан- 
ной с этим элементом, путем использования индекса 
для доступа к соответствующему массиву. 

Такой способ реализации В5Т-деревьев как сред- 
ства упрощения поиска в больших массивах элементов 
иногда весьма полезен, поскольку исключает допол- 
нительные затраты на копирование элементов во 
внутреннее представление АТД и перегрузки, связан- 
ной с распределением и конструированием при помо- 
щи пе^ѵ. Использование массивов не подходит, когда 
объем памяти играет первостепенную роль, а таблица 
символов увеличивается и уменьшается в значитель- 
ных пределах. В особенности это актуально, если за- 
ранее трудно предвидеть максимальный размер таб- 
лицы символов. Если невозможно точно предвидеть 
размер, неиспользуемые связи могут привести к на- 
прасному расходованию памяти в области массива эле- 



0 саіі ше ігЬтаеІ готе . . . 

5 те ІгЬтаеІ готе уеах . . , 

8 ігЬтаеІ готе уеагг а. . . 

16 готе уеагг а&о пеѵег. . . 

21 уеагг а§о пеѵег тіпсі. . . 

27 а&о пеѵег тіп<і Ьоѵ 1 . . . 

31 пеѵег тіп<і Ьоѵ 1оп§. . . 

37 тіпсі Ьоѵ 1оп§ ргесіг . , . 

42 Ьоѵ 1оп§ ргесігеіу Ь . . , 

46 1оп§ ргесігеіу Ьаѵіп. . . 

51 ргесігеіу Ьаѵіпд ІіЪ . . . 

• 9 9 

РИСУНОК 12.11 ИНДЕКС 
ТЕКСТОВОЙ СТРОКИ 

В этом примере индекса строки 
мы определяем ключ строки так , 
чтобы он начинался с каждого 
слова в тексте; затем строится 
ВЗТ-дерево за счет обращения к 
ключам по их индексам строк. В 
принципе, ключи имеют 
произвольную длину, но в общем 
случае исследуются только 


ментов. 

Важное применение концепции индексирования — 
обеспечение поиска ключевых слов в строке текста (см. 
рис. 12.11). В программе 12.11 показан пример такого 
приложения. Она считывает текстовую строку из внеш- 
него файла. Затем, просматривая каждую позицию в 
текстовой строке с целью определения ключа строки от 
данной позиции и до конца строки, она вставляет все 
ключи в таблицу символов, используя указатели на 
строки. Подобное применение ключей строк отличает- 
ся от определения типа строкового элемента, как в 
упражнении 12.2, поскольку никакое распределение па- 


несколько начальных символов. 
Например, для определения того, 
встречается ли фраза пеѵег тіпй 
в этом тексте, она сравнивается 
с саіі ... в корне (индекс строки 
0), затем с те,,, в правом 
дочернем узле корня (индекс 5), 
затем с ноте. . . в правом 
дочернем узле этого узла ( индекс 
16), а затем пеѵег тіпй 
отыскивается в левом дочернем 
узле данного узла (индекс 31). 


мяти под область хранения не требуется. Использованные ключи строк имеют про- 


извольную длину, но мы поддерживаем только указатели на них и просматриваем 
лишь то количество символов, которое требуется для определения того, какая из двух 
строк должна следовать первой. Никакие две строки не совпадают (например, все 
они имеют различную длину), но если изменить операцию ==, чтобы сравнить при 
условии, что одна является префиксом второй, можно было бы воспользоваться таб- 
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лицей символов для выяснения того, присутствует ли данная строка в тексте, и про- 
стым вызовом функции зеагсЬ. 

Программа 12.11 Пример индексирования текстовых строк 

В этой программе предполагается, что Нет.схх определяет представление данных 
сНаг* для ключей строк в элементах, перегруженную операцию орегаІоК, которая ис- 
пользует зігстр, перегруженную операцию орега*ог==, которая использует зішстр и 
оператор преобразования из Нет в сНаг* (см. текст). Главная программа считывает 
текстовую строку из указанного файла и использует таблицу символов для построения 
индекса из строк, определяемых начальными символами текстовых строк. Затем она 
считывает запрашиваемые строки из стандартного ввода и выводит позицию, в кото- 
рой запрос найден в тексте (или выводит строку по* іоипб). При реализации таблицы 
символов с использованием В5Т-дерева поиск выполняется быстро даже для очень 
больших строк. 

#±пс1исіе <іо8‘Ьгеат.Ь> 

#іпс1исіе <^з1:геат.Ь> 

#іпс1исіе "Іѣет.схх" 

#іпс1и«іе "ЗТ.схх" 

зЪаЫс сЬаг -Ьех-Ь [тахИ] ; 

іпѣ таіп(іп1: агдс, сЬаг *агдѵ[]) 

{ іп-Ь N = 0; сЬаг Ь; 
ііізѣгеат согриз ; согриз . ореп (*++агдѵ) ; 
ѵЫІе (И < тахИ && согриз . деЪ (1) ) Ъех-Ь[И++] = Ь; 

ЪехЪ№] = 0; 

5Т<І-Ьет, Кеу> з'Ь(тахЫ); 

^ог (іп-Ь і = 0; і < И; і++) зЪ. іпзег'Ь (бѣех-ЬСі] ) ; 
сЬаг фіегу[тах(2]; І-Ьвт х, ѵ(фіегу) ; 
ѵЛііІе (сіп . дѳ-Ыіпѳ (див г у , тахО) ) 

іі? ( (х = зЪ. зеагсЬ (ѵ.кеу () ) ) .пиіі () ) 

соиѣ « "по-Ь €оипсі: " « фіегу « епсіі; 
ѳізе сои-Ь « х-ѣехѣ « " « фіегу « епсіі; 

} 


Программа 12.11 считывает серии запросов со стандартного ввода, использует фун- 
кцию зеагсЬ для определения присутствия каждого запроса в тексте и выводит позицию 
в тексте для первого совпадения с запросом. Если таблица символов реализована с ис- 
пользованием ВБТ-дерева, то в соответствие с леммой 12.6 можно ожидать, что для 
поиска потребуется около 2^^^ сравнений. Например, как только индексы построе- 
ны, любую фразу в тексте, состоящем приблизительно из 1 миллиона символов, мож- 
но было бы найти с использованием около 30 операций сравнения строк. Это прило- 
жение равносильно индексированию, поскольку указатели строк С являются индексами 
массива символов: если х указывает на іех*[і], то разность двух указателей, х-*ех*, равна і. 

При построении индексов в реальных приложениях потребуется учесть и множество 
других моментов. Существует множество способов, в соответствие с которыми можно 
извлечь конкретные преимущества из свойств ключей строк в плане ускорения рабо- 
ты алгоритмов. Более сложные методы поиска строк и создания индексов с полезны- 
ми возможностями ключей строк будут основными темами в части 5. 

В таблицу 12.2 сведены результаты исследований, подтверждающие приведенные 
аналитические рассуждения и демонстрирующие применение деревьев бинарного по- 
иска для работы с динамическими таблицами символов с произвольными ключами. 
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Таблица 12.2 Эмпирические исследования реализаций таблиц символов 

В этой таблице приведено относительное время создания таблицы символов и по- 
иска каждого ключа в таблице. Деревья бинарного поиска обеспечивают быстрые 
реализации поиска и вставки; при использовании всех других методов для выпол- 
нения одной из этих двух задач требуется время, определяемое квадратичной за- 
висимостью. В общем случае бинарный поиск выполняется несколько быстрее по- 
иска в В5Т-дереве, но он не может быть использован применительно к очень 
большим файлам, если только таблицу нельзя предварительно отсортировать. Стан- 
дартная реализация ВЗТ-дерева распределяет память для каждого узла дерева, в 
то время как реализация с использованием индексов предварительно распределя- 
ет память для всего дерева (что ускоряет создание) и вместо указателей исполь- 
зует индексы массивов (что замедляет поиск). 


N 


конструирование 


попадания при поиске 

А 

1_ 

В 

Т 

Т* 

) 

А 

!_ 

В 

1 ■ ■ ■ ■ ■ 1 " 1 1 

Т 

Т* 

1250 

1 

5 

6 

1 

0 

6 

13 

0 

1 

1 

2500 

0 

21 

24 

2 

1 

27 

52 

1 

1 

1 

5000 

0 

87 

101 

4 

3 

111 

211 

2 

2 

3 

12500 


645 

732 

12 

9 

709 

1398 

7 

8 

9 

25000 


2551 

2917 

24 

20 

2859 

5881 


15 

21 

50000 




61 

/ 

50 




38 

48 

100000 




154 

122 




104 

122 

200000 




321 

275 




200 

272 


Ключ: 

А Неупорядоченный массив (упражнение 12.20) 

В Упорядоченный связный список (упражнение 12.21) 

С Бинарный поиск (программа 12.7) 

Т Дерево бинарного поиска, стандартное (программа 12.8) 

Т Индексированное дерево бинарного поиска (упражнение 12.67) 

■■■III ■■ ч іи н и т ■ ■ ■» — ■ ——■—■ И — .1 I I ■ — — — ■' « »■ ■ ■— ■■ ■» ' ■■ р— II ■ I р І И » III I і — и ■ I ■ — тт ш М ■ 1 1 ч ч і щ і ■ ш* . ■ ■ ' • і Ч 


12.8 Вставка в корень в деревьях бинарного поиска 

В стандартной реализации В$Т-деревьев каждый новый вставленный узел попада- 
ет куда-то в нижнюю часть дерева, заменяя какой-то внешний узел. Это не является 
абсолютно обязательным; это всего лишь следствие естественного алгоритма с исполь- 
зованием рекурсивной вставки. В этом разделе рассматривается другой метод вставки, 
при котором каждый новый элемент вставляется в корень, и поэтому недавно вставлен- 
ные узлы находятся вблизи вершины дерева. 

Построенные таким образом деревья обладают рядом интересных свойств, но глав- 
ная побудительная причина рассмотрения этого метода в том, что он играет важную 
роль в двух из усовершенствованных алгоритмов, рассматриваемых в главе 13. 

Предположим, что ключ вставляемого элемента больше ключа в корне. Создание 
нового дерева можно было бы начать с помещения нового элемента в новый корневой 
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узел, устанавливая старый корень в качестве левого 
поддерева, а правое поддерево старого корня в каче- 
стве правого поддерева. Однако, правое поддерево мо- 
жет содержать некоторые меньшие ключи, поэтому для 
завершения вставки потребуется выполнить дополни- 
тельные действия. Аналогично, если ключ вставляемо- 
го элемента меньше ключа корня и больше всех клю- 
чей в левом поддереве корня, можно снова создать 
новое дерево с новым элементом, помещенным в кор- 
не, но если левое поддерево содержит какие-либо боль- 
шие ключи, необходимы дополнительные действия. Пе- 
ремещения всех узлов с меньшими ключами в левое 
поддерево и всех узлов с большими ключами в правое в 
общем случае оказывается сложным преобразованием, 
поскольку узлы, которые должны быть перемещены, 
могут быть разбросаны по всему пути поиска для встав- 
ляемого узла. 

К счастью, существует простое рекурсивное реше- 
ние этой проблемы, которое основывается на ротации 
(гоГаПоп) — фундаментальном преобразовании деревь- 
ев. По существу, ротация позволяет менять местами 
роль корня и одного из его дочерних узлов при сохра- 
нении порядка ключей в узлах В8Т-дерева. Ротация 
вправо затрагивает корень и левый дочерний узел (см. 
рис. 12.12). Ротация помещает корень справа, изменяя 
на обратное направление левой связи корня: перед ро- 
тацией она указывает от корня к левому дочернему 
узлу, а после ротации — от левого дочернего узла (но- 
вого корня) к старому корню (правый дочерний узел 
нового корня). Основная часть, которая обеспечивает 
работу ротации, — копирование правой связи левого 
дочернего узла, чтобы она стала левой связью старого 
корня. Эта связь указывает на все узлы с ключами меж- 
ду двумя узлами, участвующими в ротации. И наконец, 
связь со старым корнем должна быть изменена так, что- 
бы указывать на новый корень. Описание ротации влево 
аналогично приведенному выше, с учетом замены оп- 
редлений "правый" и "левый" (см. рис. 12.13). 

Ротация — это локальное изменение, затрагивающее 



РИСУНОК 12.12 РОТАЦИЯ 
ВПРАВО В В5Т-ДЕРЕВЕ 

На этой схеме показан 
результат (внизу) ротации 
вправо в узле 8 в примере 
ВЗТ-дерева (вверху). Узел , 
содержащий 8, перемещается 
в дереве вниз , становясь 
правым дочерним узлом своего 
прежнего левого дочернего 
узла. 

Ротация выполняется путем 
получения связи с новым 
корнем Е из левой связи 8, 
установки левой связи 8 
путем копирования правой 
связи Е, установки правой 
связи Е указывающей на 8 и 
установки связи из А 
указывающей не на 8, а на Е. 
Эффект ротации 
заключается в перемещении Е 
и его левого поддерева на один 
уровень вверх и перемещение 8 
и его правого поддерева на 
один уровень вниз. Остальная 
часть дерева остается 
неизменной. 


только три связи и два узла, которое позволяет переме- 
щать узлы по деревьям, не изменяя глобальные свойства порядка, превращающие 
В5Т-дерево в полезную структуру для поиска (см. программу 12.12). Ротации исполь- 
зуются для перемещения конкретных узлов по дереву и для предотвращения разба- 
лансировки деревьев. В разделе 12.9 с помощью ротаций реализованы гетоѵе, ]оіп и 
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другие операции с АТД; в главе 13 они будут приме- 
няться для построения деревьев, для которых допусти- 
ма неоптимальная производительность. 

Программа 12.12 Ротации в В5Т-деревьях 

Эти две симметричных процедуры выполняют операцию 
гоіаііоп (ротация) в В5Т-дереве. Ротация вправо делает 
старый корень правым поддеревом нового корня (старо- 
го левого поддерева корня); ротация влево превращает 
старый корень в левое поддерево нового корня (старого 
правого поддерева корня). Для реализаций, в которых 
поле счетчика поддерживается в узлах (например, для 
поддержки операции зеіесі , как будет показано в разде- 
ле 14.9), необходимо также обменять поля счетчиков для 
участвующих в ротации узлах (см. упражнение 12.75). 

ѵоісі гоі:К(1іпк& Ь) 

{ Ііпк х = Ь->1; Ь->1 = х->г; х->г = Ь; 

Ь = х; } 

ѵоісі гоі:Іі(1іпк& Ь) 

{ Ііпк х » Ь->г; Ь->г = х->1 ; х->1 = Ь; 

Ь = х; } 

Операции ротации обеспечивают простую рекурсив- 
ную реализацию вставки в корень: необходимо рекур- 
сивно вставить новый элемент в соответствующее под- 
дерево (оставив его по завершении рекурсивной 
операции в корне этого дерева), а затем выполнить 
ротацию, чтобы сделать узел корнем главного дерева. 
Пример показан на рис. 12.14, а программа 12.13 со- 
держит реализацию данного метода. Эта программа — 
убедительный пример больших возможностей рекур- 
сии. Любой читатель, которого это не убеждает, может 
попытаться выполнить упражнение 12.76. 



РИСУНОК 12.13 РОТАЦИЯ 
ВЛЕВО В В5Т-ДЕРЕВЕ 

На этой схеме показан 
результат (внизу) ротации 
влево узла А в примере В5Т- 
дерева (вверху). Узел, 
содержащий А, перемещается 
вниз, становясь левым дочерним 
узлом своего прежнего правого 
дочернего узла. 

Ротация выполняется за счет 
получения связи с новым корнем 
Е из правой связи А, установки 
правой связи А путем 
копирования левой связи Е, 
установки левой связи Е на А и 
установки связи с А (верхняя 
связь дерева) вместо этого на Е. 


Программа 12.13 Вставка в корень В5Т-дерева 

При наличии функций ротации, определенных в программе 12.12, реализация рекур- 
сивной функции, которая вставляет новый узел в корень В5Т-дерева, очевидна: необ- 
ходимо вставить новый элемент в корень соответствующего поддерева, а затем выпол- 
нить соответствующую ротацию, что приведет к его переносу в корень главного дерева. 


ѵоісі 
{ : 


іпзегѣТ (1іпк& к, Іѣет х) 

: (Ь == 0) { Ь = пеѵг посіе (х) ; геѣигп; 

(х.кеу() < Ь->і1:ет.кѳу () ) 

{ іпзег-ЬТ (Ь->1 , х) ; гоѣК(Ь); } 

Ізе { іпзегѣТ (Ь->г , х) ; гоѣЬ(Іі); } 


риЫ і с 
ѵоісі 

{ і 


іпзегі: (Нет іѣет) 
пзегѣТ (Ьеасі, І1:ет) ; } 
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На рис. 12.15 и 12.16 показано создание В8Т-дерева пу- 
тем вставки последовательности ключей в первоначально 
пустое дерево с использованием метода вставки в корень. 
Если последовательность ключей произвольна, построенное 
таким образом В8Т-дерево обладает совершенно теми же 
стохастическими свойствами, что В8Т-дерево, построенное 
стандартным методом. Например, леммы 12.6 и 12.7 спра- 
ведливы и для В8Т-деревьев, построенных при помощи 
вставки в корень. 

На практике преимущество метода вставки в корень со- 
стоит в том, что недавно вставленные ключи располагают- 
ся вблизи вершины. Следовательно, затраты на обнаруже- 
ние попаданий при поиске недавно вставленных ключей, 
скорее всего, будут ниже, нежели при стандартном методе. 
Это важно, поскольку во многих приложениях выполняет- 
ся именно такой динамический набор операций зеагсИ и 
іпзегг. Таблица символов может содержать изрядное количе- 
ство элементов, но значительная часть поисков может отно- 
сится к наиболее недавно вставленным элементам. Напри- 
мер, в системе обработки коммерческих транзакций 
активные транзакции могут оставаться вблизи вершины и 
обрабатываться быстро без обращения к старым транзакци- 
ям, которые должны быть опущены. Метод вставки в ко- 
рень автоматически придает структуре данных это и анало- 
гичные свойства. 

Если также изменить функцию зеагсИ , чтобы она поме- 
щала найденный узел в корень, получится метод самоорга- 
низующегося поиска (см. упражнение 12.28), который сохра- 
няет часто посещаемые узлы вблизи вершины дерева. В главе 
13 будет показано систематичное применение этой идеи при 
создании реализации таблицы символов, обладающей гаранти- 
рованными характеристиками производительности. 

Как и в случае ряда других методов, упомянутых в этой 
главе, трудно точно определить производительность мето- 
да вставки в корень по сравнению со стандартным мето- 
дом вставки, поскольку производительность настолько за- 
висит от комбинации различных операций с таблицей 
символов, что ее трудно проанализировать аналитически. 
Невозможность проанализировать алгоритм не обязательно 
должна удерживать от использования вставки в корень, 
когда известно, что основная масса поисков будет связана 
с недавно вставленными данными, однако всегда требуются 
гарантии в отношении производительности; основной темой 
в главе 13 являются такие методы конструирования В8Т- 
деревьев, которые могут предоставить такие гарантии. 








РИСУНОК 12.14 ВСТАВКА 
В КОРЕНЬ В5Т-ДЕРЕВА 

Эта последовательность 
отображает результат 
вставки О в В5Т-дерево, 
приведенное на верхнем 
рисунке , после 
(рекурсивного) выполнения 
ротации после вставки с 
целью перемещения 
вставленного узла С в 
корень. Этот процесс 
эквивалентен вставке С с 
последующим выполнением 
последовательности 
ротаций для перемещения 
его в корень. 
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Упражнения 

О 12.73 Нарисуйте В$Т-дерево, образующееся при встав- 
ке элементов с ключами ЕА8V^^Е5ТIОNв пер- 
воначально пустое дерево методом вставки в корень. 

12.74 Приведите последовательность из 10 ключей (ис- 
пользуя буквы от А до 1), для которой при вставке в пер- 
воначально пустое дерево методом вставки в корень для 
создания дерева требуется максимальное количество 
сравнений. Укажите количество используемых сравне- 
ний. 

12.75 Добавьте код, необходимый, чтобы программа 
12.12 корректно изменяла поля счетчиков, которые дол- 
жны изменяться после ротации. 

о 12.76 Реализуйте нерекурсивную функцию вставки в ко- 
рень В$Т-дерева (см. программу 12.13). 




12.77 Эмпирически определите среднее значение и стан- 
дартное отклонение количества сравнений, используе- 
мых для обнаружения попаданий и промахов при поис- 
ке в В5Т-дереве, построенном при помощи вставки N 
произвольных ключей в первоначально пустое дерево и 
последующего выполнения N произвольных поисков 
/Ѵ/10 наиболее недавно вставленных ключей для N— ІО 3 , 
10 4 , ІО 5 и ІО 6 . Проделайте эксперименты и для стандар- 
тного метода вставки и для метода вставки в корень; за- 
тем сравните полученные результаты. 


12.9 Реализации других функций 


АТД с помощью В$Т-дерева 

Рекурсивные реализации, приведенные в разделе 12.5 для 
основных функций зеагсН , іпзегі и зог ( , которые используют 
структуры бинарных деревьев, достаточно просты. В этом 
разделе рассматриваются реализации функций зека, ]оіп и 
гетоѵе. Одна из них. зеіесг . имеет также оекѵосивнѵю оеали- 



РИСУНОК 12.15 СОЗДАНИЕ 
В5Т-ДЕРЕВА ЗА СЧЕТ 
ВСТАВКИ В КОРЕНЬ 

Эта последовательность 
отображает результат 
вставки ключей А $ Е К С 
Н I в первоначально 
пустое ВЗТ-дерево при 
помощи метода вставки в 
корень. Каждый новый 
узел вставляется в корень 
с изменением связей, 
расположенных вдоль его 
пути поиска , что 
приводит к образованию 
соответствующего ВВ Т - 
дерева. 


зацию, однако реализация других может оказаться трудной 

задачей, приводящей к проблемам, связанным с производительностью. Операцию 
зека важно рассмотреть, поскольку возможность эффективной поддержки операций 
зека и зогі — одна из причин, по которой для многих приложений В$Т-деревья ока- 
зываются предпочтительнее других структур. Некоторые программисты избегают ис- 
пользования В5Т-деревьев, чтобы не иметь дело с операцией гетоѵе ; в этом разделе 


рассматривается компактная реализация, которая связывает эти операции вместе и 
использует технологию ротации к корню, описанную в разделе 12.8. 




516 


Часть 4. Поиск 


В общем случае операции связаны с перемещением 
вниз по дереву; поэтому для случая произвольного В8Т- 
дерева можно ожидать, что затраты будут определяться 
логарифмической зависимостью. Однако, нельзя гаран- 
тировать, что В8Т-деревья останутся произвольными 
после выполнения над ними нескольких операций. В 
конце этого раздела мы вернемся к данному вопросу. 

Для реализации операции зеіесі можно использовать 
рекурсивную процедуру, аналогичную методу выбора с 
использованием быстрой сортировки, который описан 
в разделе 7.8. Для отыскания в В8Т-дереве элемента с к - 
м наименьшим ключом проверяется количество узлов в 
левом поддереве. Если там имеется к узлов, возвраща- 
ется корневой элемент. В противном случае, если левое 
поддерево содержит более к узлов, отыскивается (ре- 
курсивно) к- й наименьший узел в нем. Если ни одно из 
этих условий не соблюдается, то левое поддерево содер- 
жит і элементов при і < к, и к- й наименьший элемент в 
В8Т-дереве является (к — 1- 1)-м наименьшим элемен- 
том в правом поддереве. Программа 12.14 содержит ре- 
ализацию описанного метода. Как обычно, поскольку 
каждое выполнение функции завершается максимум 
одним рекурсивным вызовом, нерекурсивная версия 
очевидна (см упражнение 12.78). 

Программа 12.14 Выбор с помощью В5Т-дерева 

В этой процедуре предполагается, что размер поддере- 
ва поддерживается для каждого узла дерева. Сравните 
эту программу с выбором с использованием быстрой 
сортировки в массиве (программа 9.6). 

ргіѵаѣе : 

І-Ьет зе1есѣК(1іпк Ь, іп^ к) 

{ (Ь. == 0) геѣигп пиШіел; 

іігЬ “Ь = (Ь->1 == 0) ? 0: Ь->1->1і; 

іі (ѣ > к) ге^игп зе1есЪК(Ь->1 , к) ; 

(-Ь < к) гвѣит зе1есЪК(Ь->г , к-*Ь-1) ; 
геѣит Ь-^ѣет; 

} 

ргйэііс : 

Іѣет зеІесМіпѣ к) 

{ геѣигп зеІесЪК (Ьеасі, к) ; } 




РИСУНОК 12.16 
КОНСТРУИРОВАНИЕ В5Т- 
ДЕРЕВА ПРИ ПОМОЩИ 
ВСТАВКИ В КОРЕНЬ 
(ПРОДОЛЖЕНИЕ) 

Эта последовательность 
отображает вставку ключей 
N С ХМ Р Ь в В8Т-дерево, 
которое начинало 
создаваться на рис. 12. 15. 


С точки зрения алгоритма основная причина включения полей счетчика в узлы 
В8Т-дерева — необходимость поддержки реализации операции зеіесі. Это позволяет 
также обеспечивать тривиальную реализацию операции соипі (возвращение поля счет- 
чика в коневом узле); в главе 13 будет продемонстрировано еще одно применение. 
Недостатки присутствия поля счетчика заключаются в использовании дополнительной 
памяти для каждого узла и необходимости обновления поля каждой функцией, изме- 
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няющей дерево. Поддержка поля счетчика может не оку- 
паться в некоторых приложениях, в которых основным 
операциями являются ітегі и зеагсН , но это может ока- 
заться незначительной платой, если важно поддерживать 
операцию веіесі в динамической таблице символов. 

Эту реализацию операции зеіесі можно преобразовать 
в операцию рагШіоп (разбиение на части), которая реорга- 
низует дерево для помещения &-го наименьшего элемента 
в корень, что в точности соответствует рекурсивной тех- 
нологии, которая использовалась для вставки в корень в 
разделе 12.8: если мы (рекурсивно) помещаем требуемый 
узел в корень одного из поддеревьев, его затем можно 
сделать корнем» всего дерева, применив единственную 
ротацию. Программа 12.15 содержит реализацию этого 
метода. Подобно ротациям, разбиение на части не при- 
надлежит к операциям АТД, поскольку эта функция пре- 
образует конкретное представление таблицы символов и 
не должна быть прозрачной для клиентов. Скорее, это 
вспомогательная процедура, которую можно использовать 
для реализации операций АТД либо с целью повышения 
эффективности их выполнения. На рис. 12.17 приведен 
пример, иллюстрирующий аналогично показанному на 
рис. 12.14, что этот процесс эквивалентен спуску по пути 
поиска от корня до требуемого узла дерева, а затем 
подъему обратно с выполнением ротаций для перемеще- 
ния узла в корень. 

Для удаления узла с данным ключом из В$Т-дерева 
вначале необходимо проверить, находится ли он в одном 
из поддеревьев. Если да, мы заменяем это поддерево ре- 
зультатом удаления (рекурсивного) из него узла. Если уда- 
ляемый узел находится в корне, дерево заменяется ре- 
зультатом объединения двух поддеревьев в одно. Для 
выполнения такого объединения существует несколько 
возможностей. Один из возможных подходов проиллюст- 
рирован на рис. 12.18, а реализация представлена в про- 
грамме 12.16. Для объединения двух В$Т-деревьев, все 
ключи второго из которых заведомо больше ключей пер- 
вого, ко второму дереву применяется операция рагШіоп с 
целью перемещения в корень наименьшего элемента в 
этом дереве. На данном этапе левое поддерево корня дол- 



РИСУНОК 12.17 РАЗДЕЛЕНИЕ 
В5Т-ДЕРЕВА НА ЧАСТИ 

Эта последовательность 
отображает результат 
( внизу) разбиения примера 
В5Т-дерева (вверху) на 
части расположенным 
практически посередине 
ключом; при этом 
применяется (рекурсивно) 
ротация, как это делалось 
во время вставки в корень. 


жно быть пустым (иначе в нем располагался бы элемент, который меньше элемента 


в корне — явное противоречие), и задачу можно завершить, заменив эту связь свя- 


зью с первым деревом. На рис. 12.19 показана последовательность удалений в при- 


мере дерева, которая иллюстрирует некоторые из возможных ситуаций. 
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Программа 12.16 Удаление узла с данным ключом из 
В5Т-дерева 

В этой реализации операции гетоѵе выполняется удале- 
ние из ВвТ-дерева первого встреченного узла с ключом ѵ. 
Выполняя просмотр сверху вниз, программа осуществля- 
ет рекурсивные вызовы для соответствующего поддерева 
до тех пор, пока удаляемый узел не окажется в корне. 
Затем программа заменяет узел результатом объедине- 
ния его двух поддеревьев — наименьший узел в правом 
поддереве становится корнем, а затем его левая связь 
начинает указывать на левое поддерево. 

ргіѵаЪе : 

Ііпк зоіпЬК(1іпк а, Ііпк Ь) 

{ 

і* (Ь == 0) геѣигп а; 
рагЪК(Ь, 0) ; Ъ->1 * а; 
геѣигп Ь; 

} 

ѵоісі гешоѵеК (1іпк& Ъ, Кеу ѵ) 

{ і:Г (Ь = 0) геЪшгп; 

Кеу %г = Ь->іЪет.кеу () ; 

НЕ (ѵ < ѵ) гетоѵеК (Ь->1 , ѵ) ; 

(ѵ < ѵ) гетоѵеК (Ь->г , ѵ) ; 
і* (ѵ =з= ѵг) 

{ Ііпк Ь = Ь; 

Ь = зоіпііН(Ь-> 1 , Ь->г) ; сівІе-Ьѳ Ъ; } 

} 

риЫіс : 

ѵоід гетоѵе (І^ет х) 






РИСУНОК 12.18 УДАЛЕНИЕ 
КОРНЯ В В5Т-ДЕРЕВЕ 

На этой схеме показан 
результат (внизу) уда>іения 
корня из примера В ВТ- дере в а 
(вверху). Вначале мы удаляем 
узел, оставляя два поддерева 
(второй сверху рисунок). Затем 
мы разделяем правое поддерево 
на части для помещения его 


{ гетоѵеК (Ьеа<1 , х . кеу ( ) ) ; } 


Этот подход асимметричен и является особым в од- 
ном отношении: почему в качестве корня нового дере- 
ва используется наименьший ключ во втором дереве, а 
не наибольший ключ в первом дереве? Другими слова- 
ми, почему удаляемый узел заменяется следующим уз- 
лом в поперечном обходе дерева, а не предыдущим ? 

Можно было бы также рассмотреть другие подходы. 

Например, если узел, который должен быть удален, содержит нулевую левую связь, 
почему бы просто не сделать его правый дочерний узел новым корнем вместо того, 
чтобы использовать узел с наименьшим ключом в правом поддереве? Предлагались 
другие, аналогичные, модификации базовой процедуры удаления. К сожалению, всём 


наименьшего элемента в коренъ 
(третий сверху рисунок), 
оставляя левую связь 
указывающей на пустое 
поддерево. И, наконец, мы 
заменяем эту связь связью с 
левым поддеревом исходного 
дерева (нижний рисунок). 


им присущ один и тот же недостаток: остающееся после удаления дерево не являет- 
ся произвольным, даже если до этого оно было таковым. Более того, было показа- 
но, что программа 12.16 склонна оставлять дерево слегка несбалансированным (сред- 
няя высота пропорциональна л/]у ), если дерево подвергается большому количеству 
произвольных пар операций удаления- вставки (см. упражнение 12.84). 

Упомянутые различия могут быть не заметны в реальных приложениях, если толь- 
ко N не очень велико. Тем не менее* подобного рода сочетание элегантного алгорит- 
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ма с нежелательными характеристиками производитель- 
ности является неудовлетворительным. В главе 13 будут 
рассматриваться два различных способа исправления этой 
ситуации. 

Для алгоритмов поиска типично, когда для удаления 
требуются более сложные реализации, нежели для поиска. 
Значения ключей играют сложную роль в формировании 
структуры, поэтому удаление ключа может быть сопряже- 
но со сложными исправлениями. Одна из возможных аль- 
тернатив — использование "ленивой" стратегии удаления, 
оставляющей удаленные узлы в структуре данных, но по- 
мечающей их как "удаленные", которые будут игнориро- 
ваться при поиске. В реализации поиска в программе 12.8 
эту стратегию можно реализовать за счет пропуска провер- 
ки на равенство для таких узлов. Необходимо убедиться, 
что большие количества помеченных узлов не ведут к из- 
лишним затратам времени или памяти, но если удаления 
выполняются не слишком часто, дополнительные затраты 
могут не играть особой роли. Помеченные узлы можно 
было бы использовать в будущих вставках, когда это удоб- 
но (например, это можно было бы легко сделать для узлов 
в нижней части дерева). Или же можно было бы периоди- 
чески перестраивать всю структуру данных, отбрасывая 
помеченные узлы. Подобные соображения применимы к 
любой структуре данных, сопряженной с вставками и уда- 
лениями, а не только к таблицам символов. 

Эта глава завершается рассмотрением реализации опе- 
рации гетоѵе с задействованием дескрипторов и операции 
)оіп для реализаций АТД таблицы символов, которые ис- 
пользуют ВЗТ-деревья. Мы предполагаем, что дескрипто- 
ры — это ссылки, и опускаем дальнейшие рассуждения на 
тему формирования пакетов, чтобы можно было сосредо- 
точиться на двух базовых алгоритмах. 

Основная сложность в реализации функции для удаления 
узла с данным дескриптором (связью) та же, что имела ме- 
сто в случае связных списков: необходимо изменить указа- 






РИСУНОК 12.19 УДАЛЕНИЕ 
УЗЛА ИЗ В5Т-ДЕРЕВА 


Эта последовательность 
отображает результат 
удаления узлов с ключами Ь, 
Ни Е из ВЗТ-дерева , 
показанного на верхнем 
рисунке. Вначале Ь просто 
удаляется, поскольку он 
расположен внизу. Затем Н 
заменяется на его правый 
дочерний узел I, поскольку 
левый дочерний узел I пуст. 
Наконец, Е заменяется 
своим потомком С. 


тель в структуре, который указывает на удаляемый узел. 

Существует, по меньшей мере, четыре способа решения 

упомянутой проблемы. Во-первых, в каждый узел дерева можно добавить третью 
связь, указывающую на его родительский узел. Недостаток метода заключается в том, 
что поддерживать дополнительные связи весьма обременительно, как уже отмечалось 
неоднократно. Во-вторых, можно использовать ключ в элементе для выполнения 
поиска в дереве, прекращая его после нахождения соответствующего указателя. Не- 


достаток этого подхода в том, что усредненная позиция узла находится в нижнеи части 
дерева и, следовательно, этот подход сопряжен с необязательным перемещением по 
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дереву. В-третьих, можно воспользоваться ссылкой 
или указателем на указатель узла в качестве дескрип- 
тора. Этот метод подходит в языках С++ и С, но не 
во множестве других языков. В-четвертых, можно 
прибегнуть к "ленивому" подходу, помечая удален- 
ные узлы и периодически перестраивая структуру 
данных, как описывалось несколько ранее. 

Последняя операция с АТД таблиц символов, ко- 
торую мы рассмотрим — операция ]оіп. В реализации 
с использованием В8Т-дерева это сводится к объеди- 
нению двух деревьев. Как объединить два дерева би- 
нарного поиска в одно? Существуют различные алго- 
ритмы для выполнения этой задачи, но каждому из 
них присущи определенные недостатки. Например, 
можно было бы обойти первое В8Т-дерево, вставляя 
каждый из его узлов во второе В8Т-дерево (этот ал- 
горитм является однонаправленным: функция іпзегі 
во втором В8Т-дереве используется как параметр 
функции обхода первого В8Т-дерева). Время выпол- 
нения подобного решения не линейно, поскольку для 
каждой вставки может требоваться линейное время. 
Другой подход связан с обходом обоих В8Т-деревьев 
с целью помещения элементов в массив, объедине- 
ния их и затем построения нового В8Т-дерева. Вре- 
мя выполнения этой операции может быть линей- 
ным, но это также связано с потенциально большим 
массивом. 



РИСУНОК 12.20 ОБЪЕДИНЕНИЕ 
ДВУХ ВБТ-ДЕРЕВЬЕВ 

На этой схеме показан результат 
(внизу) объединения двух примеров 
В5Т -деревьев (вверху). Вначале 
мы вставляем корень О первого 
дерева во второе дерево, используя 
вставку в корень (второй сверху 
рисунок). У нас остаются два 
поддерева, ключи которых меньше 
О, и два поддерева, ключи 
которых больше С. Объединение 
обоих пар (рекурсивно) 
обеспечивает конечный результат 
(рисунок внизу). 


Программа 12.17 — компактная, линейная по затратам времени рекурсивная ре- 
ализация операции ]оіп. Вначале мы вставляем корень первого В8Т-дерева во второе 
В8Т-дерево, используя метод вставки в корень. Эта операция дает два поддерева, 


ключи которых заведомо меньше этого корня, и два поддерева, ключи которых за- 
ведомо больше этого корня, поэтому требуемый результат получается путем объеди- 
нения (рекурсивного) первой пары в левое поддерево корня, а второй пары — в пра- 
вое поддерево корня (!). Каждый узел может быть корневым максимум при одном 
рекурсивном вызове, поэтому общее время определяется линейной зависимостью. 


Программа 12.17 Объединение двух В$Т-деревьев 


Если одно из В5Т-деревьев пустое, второе будет представлять результат. В противном 
случае два В5Т-дерева объединяются путем выбора (произвольного) корня первого 
дерева в качестве результирующего корня, вставки этого корня в корень второго де- 
рева, а затем (рекурсивного) объединения пары левых поддеревьев и пары правых под- 
деревьев. 


ргіѵаѣѳ : 

Ііпк зо±пК(1±пк а, 1±пк Ь) 
{ 


ііі (Ъ 


0) геѣигп а; 
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(а = 0) геѣигп Ь; 
іпзегѣТ(Ъ, а~>1Ъеш) ; 

Ъ->1 = зоіпК(а->1, Ь->1) ; 
Ъ^>г = эоіпК(а->г, Ъ->г) ; 
сіеіеѣе а; геѣигп Ь; 

> 

риЫіс: 

ѵоісі эоіп (5Т<ІЪет, Кеу>& Ь) 

{ Ьеасі = зоіпК(Ьеасі, Ь.Ьѳасі) ; } 


Пример показан на рис. 12.20. Подобно удалению, этот процесс асимметричен и 
может приводить к деревьям, которые не являются хорошо сбалансированными, од- 
нако простое решение проблемы обеспечивает рандомизация, как будет показано в 
главе 13. Обратите внимание, что в наихудшем случае количество сравнений, исполь- 
зованных для выполнения операции уош, должно, по крайней мере, определяться ли- 
нейной зависимостью; иначе можно было бы разработать алгоритм сортировки, в 
котором присутствует менее сравнений, применяя такой подход, как восходя- 
щая сортировка слиянием (см. упражнение 12.88). 

Мы не включили в программу код, необходимый для поддержки полей счетчика 
в узлах В$Т-дерева во время преобразований для операций ріп и гетоѵе , что необхо- 
димо в приложениях, где требуется поддерживать также и операцию зека (програм- 
ма 12.14). Концептуально эта задача проста, однако требует определенных усилий. 
Один из стандартных способов ее выполнения — реализация небольшой вспомога- 
тельной процедуры, которая устанавливает значение поля счетчика в узле на единицу 
больше, чем сумма полей счетчиков в его дочерних узлах, а затем вызов полученной 
процедуры для каждого узла, связи которого изменяются. В частности, это можно вы- 
полнить для обоих узлов в гоіЬ и гоіК в программе 12.12, что достаточно для выпол- 
нения преобразований в программах 12.13 и 12.15, поскольку они преобразуют дере- 
вья исключительно путем ротаций. Для іоіпІЛІ и гетоѵеК в программе 12.16 и ]оіп в 
программе 12.17 достаточно вызвать процедуру обновления счетчика узлов для воз- 
вращаемого узла непосредственно перед оператором гейігп. 

Базовые операции зеагсИ , іпзегі и зоП для В5Т-деревьев легко реализовать и выпол- 
нить даже при весьма незначительной случайности в последовательности операций, 
поэтому В$Т-деревья широко используются применительно к динамическим таблицам 
символов. Они допускают также простые рекурсивные решения для поддержки других 
видов операций, как было показано в этой главе на примере операций зеіесі , гетоѵе и 
уо/л, и как будет показано во многих примерах далее в книге. 

Несмотря на всю полезность, существует два основных недостатка использования 
В$Т-деревьев в приложениях. Во-первых, они требуют существенного дополнительного 
объема памяти для связей. Часто мы считаем, что ссылки и записи имеют практичес- 
ки одинаковые размеры (скажем, одно машинное слово) — если это так, реализация с 
использованием В5Т-дерева использует две трети выделенного для нее объема памяти 
под ссылки и только одну треть под ключи. Данный эффект менее важен в приложе- 
ниях с большим количеством записей и более важен в средах, в которых указатели ве- 
лики. Если же память играет первостепенную роль, применению В8Т-деревьев можно 
предпочесть один из методов хеширования с открытой адресацией, описанных в главе 
14. 
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Второй недостаток использования В8Т-деревьев — возможность того, что деревья 
могут стать плохо сбалансированными и в результате снижать производительность. В 
главе 13 исследуются еще несколько подходов к обеспечению гарантированной произ- 
водительности. При наличии достаточного объема памяти под связи, эти алгоритмы 
делают В8Т-деревья весьма привлекательными в качестве основы для реализации АТД 
таблиц символов, поскольку обеспечивают гарантированно высокую производитель- 
ность для большого набора полезных операций с АТД. 

Упражнения 

О 12.78 Реализуйте нерекурсивную функцию В8Т-дерева (см. программу 12.14). 

1> 12.79 Нарисуйте В8Т-дерево, образованное в результате вставки элементов с ключами Е 
А8Ѵ(ЗІЛГІСЖв первоначально пустое дерево и последующего удаления О. 

І> 12.80 Нарисуйте В8Т-дерево, образованное в результате вставки элементов с ключа- 
ми Е А 8 V в первоначально пустое дерево, вставки элементов с ключами О II Е 8 Т I О 
N в другое первоначально пустое дерево и последующего объединения результатов. 

12.81 Реализуйте нерекурсивную функцию гетоѵе для В8Т-дерева (см. программу 12.16). 

12.82 Реализуйте версию операции гетоѵе для В8Т-деревьев (программа 12.16), кото- 
рая удаляет все узлы дерева, имеющие ключи, равные данному. 

о 12.83 Измените реализации таблиц символов, основанные на В8Т-дереве, чтобы они 
поддерживали дескрипторы клиентских элементов (см. упражнение 12.7); добавьте 
реализации деструктора, конструктора копирования и перегруженной операции при- 
сваивания (см. упражнение 12.6); добавьте операции гетоѵе и ]оіп\ воспользуйтесь про- 
граммой-драйвером из упражнения 12.22 для проверки своего интерфейса и реализа- 
ции АТД первого класса таблицы символов. 

12.84 Экспериментально определите увеличение высоты В8Т-дерева при выполнении 
длинной последовательности чередующихся операций вставки и удаления в произволь- 
ном дереве с А узлами. А = 10, 100 и 1000, а для каждого значения А выполняется до 
ІО 2 пар вставок-удалений. 

12.85 Реализуйте версию функции гетоѵе (см. программу 12.16), которая принимает 
произвольное решение относительно замены узла, который должен быть удален, уз- 
лом-предком или узлом-потомком в дереве. Выполните для этой версии серию экспе- 
риментов, описанных в упражнении 12.84. 

о 12.86 Реализуйте версию функции гетоѵе, которая использует рекурсивную функцию для 
перемещения узла, который должен быть удален, в нижнюю часть дерева при помощи 
ротации, подобной вставке в корень (программа 12.13). Нарисуйте дерево, образованное 
в результате удаления программой корня из полного дерева, состоящего из 31 узла. 

о 12.87 Выполните эксперименты для определения увеличения высоты В8Т-дерева при 
многократной вставке элемента в корень дерева, образованного в результате объеди- 
нения поддеревьев корня в произвольном дереве, состоящем из А узлов, причем А = 
10, 100 и 1000. 

о 12.88 Реализуйте версию восходящей сортировки слиянием, основанной на операции 
]оіп. Начните с помещения ключей в А одноузловых деревьев, затем объедините одно- 
узловые деревья в пары для получения А/ 2 двухузловых деревьев, далее объедини- 
те двухузловые деревья для получения А / 4 четырехузловых деревьев и т.д. 

12.89 Реализуйте версию функции іоіп (см. программу 12.17), которая принимает про- 
извольное решение относительно использования корня первого или корня второго 
дерева в качестве корня результирующего дерева. Проделайте для этой версии серию 
экспериментов, описанных в упражнении 12.87. 


Сбалансированные 

деревья 


О писанные в предыдущей главе алгоритмы, использу- 
ющие деревья бинарного поиска (В5Т-деревья) ус- 
пешно работают для широкого множества приложений, 
однако их производительность существенно снижается в 
худших случаях. Более того, как это ни прискорбно, на 
практике именно худший случай стандартного алгоритма 
с использованием ВЗТ-дерева наподобие быстрой сорти- 
ровки встречается чаще всего, причем когда пользователь 
не ожидает этого. Уже упорядоченные файлы, файлы с 
большим количеством дублированных ключей, упорядо- 
ченные в обратном порядке файлы или файлы с любым 
большим сегментом, имеющим простую структуру, могут 
приводить к тому, что время построения ВЗТ-дерева оп- 
ределяется квадратичной, а время поиска — линейной за- 
висимостью. 

В идеальном случае можно было бы сохранять деревья 
полностью сбалансированными, подобно дереву, показан- 
ному на рис. 13.1. Эта структура соответствует бинарному 
поиску и, следовательно, все поиски могут быть выполне- 
ны с использованием менее УѴ+ 1 сравнений, но при этом 
поддержка динамических вставок и удалений сопряжена с 
большими затратами. Высокая производительность поис- 
ка гарантируется для любого ВЗТ-дерева, в котором все 
внешние узлы расположены в одном, в крайнем случае в 
двух, нижних уровнях. Существует большое множество 
таких В8Т-деревьев, поэтому в плане поддержки сбалан- 
сированности дерева имеется некоторая свобода. Если 
нас устраивают деревья, близкие к оптимальным, возмож- 
ности еще больше расширяются. Например, существует 
очень много В5Т-деревьев, высота которых не превыша- 
ет 2 1§7Ѵ. Если допустимо смягчить стандарт, но при этом 
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РИСУНОК 13.1 БОЛЬШОЕ ПОЛНОСТЬЮ СБАЛАНСИРОВАННОЕ В5Т-ДЕРЕВ0 

Все внешние узлы этого ВВТ-дерева располагаются в одном из двух уровней, и для выполнения любого 
поиска требуется столько же сравнений , сколько использовалось бы при поиске этого же ключа 
методом бинарного поиска (если бы элементы хранились в упорядоченном массиве). Цель применения 
алгоритма с использованием сбалансированного дерева — сохранение В8Т-дерева максимально 
сбалансированным при сохранении эффективности вставки , удаления и других операций с ЛТД 
словаря. 


гарантировать, что алгоритмы будут строить только такие В5Т-деревья, можно избе- 
жать снижения производительности для худшего случая, что было бы желательно в 
реальных приложениях, работающих с динамическими структурами данных. При этом 
производительность для среднего случая также увеличивается. 

Один из подходов к повышению степени сбалансированности в В8Т-деревьях свя- 
зан с периодическим явным выполнением их повторной балансировки. Действитель- 
но, используя рекурсивный метод, продемонстрированный в программе 13.1, боль- 
шинство ВЗТ-деревьев можно полностью сбалансировать, затратив на это время, 
которое определяется линейной зависимостью (см. упражнение 13.4). Скорее всего, 
такая повторная балансировка повысит производительность для случайных ключей, 
но не обеспечит гарантию против квадратичной зависимости производительности 
выполнения операций в динамической таблице символов для худшего случая. С од- 
ной стороны, между операциями повторной балансировки время вставки для данной 
последовательности ключей может возрастать в квадратичной зависимости от длины 
последовательности; с другой стороны, повторную балансировку крупных деревьев 
нежелательно выполнять слишком часто, поскольку для выполнения каждой опера- 
ции балансировки требуется время, которое, по меньшей мере, линейно зависит от 
размера дерева. Необходимость отыскания компромисса в данной ситуации затруд- 
няет использование глобальной повторной балансировки для гарантирования высо- 
кой производительности в динамических В8Т-деревьях. Во всех рассматриваемых в 
дальнейшем алгоритмах во время обхода дерева выполняются последовательно нара- 
стающие локальные операции, которые совместно увеличивают сбалансированность 
всего дерева, хотя при этом никогда не приходится выполнять обход всех узлов по- 
добно тому, как это имеет место в программе 13.1. 


Программа 13.1 Балансировка В5Т-дерева 


Используя функцию разделения на части рагШ из программы 12.15, эта рекурсив- 
ная функция приводит В5Т-дерево в полностью сбалансированное состояние при 
затратах времени, которые определяются линейной зависимостью. Разделение на 
части выполняется с целью помещения среднего узла в корень, а затем это же вы- 
полняется для поддеревьев. 




Глава 13. Сбалансированные деревья 


ѵоій ЬаІапсеК (1іпк& Ь) 

{ 

((Ь « 0) И (Ь-Ж в 1)) геѣигп; 
раг'ЬК(Ь, Ь-Ж/2) ; 

Ьа1апсеК(Ь->1) ; 

Ъа1апсеК(Ъ->г) ; 

} 


Задача обеспечения гарантированной производительности для реализаций таблиц 
символов, основанных на использовании В$Т-деревьев, — превосходный повод для 
исследования того, что именно подразумевается под гарантированной производитель- 
ностью. Будут показаны решения этой задачи, являющиеся типичными примерами 
трех базовых подходов к обеспечению гарантированной производительности при раз- 
работке алгоритмов: рандомизации , амортизации и оптимизации. А теперь давайте по 
очереди кратко рассмотрим каждый из этих подходов. 

При использовании рандомизованного алгоритма принятие случайного решения 
встроено в сам алгоритм, что радикально уменьшает вероятность возникновения худ- 
шего случая сценария (независимо от входного массива данных). Мы уже видели ти- 
пичный пример такого подхода, когда случайный элемент использовался в качестве 
разделяющего в алгоритме быстрой сортировки. В разделах 13.1 и 13.5 исследуются 
рандомизованные В5Т-деревъя и списки пропусков — два простых способа использования 
рандомизации в реализациях таблиц символов для увеличения эффективности всех 
операций с АТД таблицы символов. Эти алгоритмы просты и широко используются, 
однако они оставались неисследованными в течение нескольких десятилетий (см. раз- 
дел ссылок). Аналитическое доказательство эффективности этих алгоритмов не явля- 
ется элементарным, но сами алгоритмы просты для понимания, как и их реализация 
и практическое применение. 

Амортизационный подход заключается в однократном выполнении дополнительных 
действий во избежание выполнения большего объема работы впоследствии, чтобы 
можно было обеспечить гарантированный верхний предел усредненной стоимости 
одной операции (общей стоимости всех операций, разделенной на количество опера- 
ций). В разделе 13.2 рассматривается расширенное дерево — вариант В$Т-дерева, ко- 
торое можно использовать для обеспечения таких гарантий при реализации таблиц 
символов. Разработка этого метода послужила одним из стимулов разработки концеп- 
ции амортизации (см. раздел ссылок). Этот алгоритм — вполне очевидное расширение 
метода вставок в корень, рассмотренного в главе 12, но аналитическое обоснование 
предельных значений производительности является достаточно сложным. 

Отимизационный подход заключается в обеспечении гарантированной производи- 
тельности каждой операции. Были разработаны различные методы, использующие 
этот подход, часть из которых восходит к 60-м годам. Эти методы требуют хранения 
в деревьях некоторой структурной информации, и, как правило, их реализация свя- 
зана с определенной сложностью. В этой главе рассматриваются две простые абстрак- 
ции, которые не только делают реализацию понятной, но и обеспечивают почти оп- 
тимальные верхние пределы затрат. В заключение, после исследования реализаций 
АТД таблиц символов с использованием каждого из этих трех подходов, обеспечива- 
ющих гарантированную высокую производительность, в главе приводится сравнение 
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характеристик производительности. Помимо различий, обусловленных различной 
природой гарантий производительности, обеспечиваемых тем или иным алгоритмом, 
каждый из методов характеризуется затратами (сравнительно небольшими) времени 
или памяти, сопряженными с упомянутыми гарантиями; разработка АТД действитель- 
но оптимально сбалансированного дерева все еще остается предметом будущих ис- 
следований. Тем не менее, все рассматриваемые в этой главе алгоритмы весьма важ- 
ны и способны обеспечить быстро выполняющиеся реализации операций веагсН и 
іпзеп (и ряда других операций для АТД таблицы символов) в динамических таблицах 
символов, предназначенных для разнообразных приложений. 

Упражнения 

о 13.1 Реализуйте эффективную функцию, выполняющую повторную балансировку 
В8Т-деревьев, которые не содержат поле счетчика в своих узлах. 

13.2 Модифицируйте стандартную функцию вставки в В8Т-дерево, представлен- 
ную в программе 12.8, чтобы ее можно было использовать в программе 13.1 для 
выполнения повторной балансировки дерева каждый раз, когда количество эле- 
ментов в таблице символов достигает числа, равного степени 2. Сравните время 
выполнения этой программы с временем выполнения программы 12.8 при выпол- 
нении задач (/') построения дерева из N случайных ключей и (//) поиска N случай- 
ных ключей в результирующем дереве, для N = ІО 3 , ІО 4 , ІО 5 и ІО 6 . 

13.3 Оцените количество сравнений, используемых программой из упражнения 
13.2 при вставке возрастающей последовательности А ключей в таблицу символов. 

•• 13.4 Покажите, что для выроженного дерева время выполнения программы 13.1 
пропорционально А1§А. Затем приведите максимально неоптимальный вариант 
дерева, при котором время выполнения программы определяется линейной фун- 
кцией. 

13.5 Модифицируйте стандартную функцию вставки в В8Т-дерево, приведенную 
в программе 12.8, чтобы она делила примерно пополам любой встреченный узел, 
который в одном из своих поддеревьев содержит менее одной четверти всех узлов. 
Сравните время выполнения этой программы с временем выполнения програм- 
мы 12.8 при выполнении задач (/) построения дерева из А случайных ключей и (/У) 
поиска А случайных ключей в результирующем дереве, для N — ІО 3 , ІО 4 , ІО 5 и ІО 6 . 

13.6 Оцените количество сравнений, используемых программой из упражнения 
13.5 при вставке возрастающей последовательности N ключей в таблицу символов. 

• 13.7 Расширьте реализацию, созданную в упражнении 13.5, чтобы она так же вы- 
полняла повторную балансировку при выполнении функции гетоѵе. Эксперимен- 
тально определите, возрастает ли высота дерева при выполнении длиной последо- 
вательности чередующихся случайных вставок и удалений в случайном дереве, 
состоящем из А узлов при А= 10, 100 и 1000 и при выполнении А 2 пар вставок- 
удалений для каждого А. 
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13.1 Рандомизованные 
В5Т- деревья 

Чтобы проанализировать затраты для случая ус- 
редненной производительности при работе с В8Т-де- 
ревьями, было сделано допущение, что элементы 
вставляются в случайном порядке (см. раздел 12.6). 
Применительно к алгоритму с использованием В8Т- 
дерева главное следствие этого допущения заключает- 
ся в том, что каждый узел дерева с равной вероятно- 
стью может оказаться корневым, причем это же 
справедливо и по отношению к поддеревьям. Как это 
ни удивительно, "случайность” можно включить в ал- 
горитм, чтобы это свойство сохранялось без каких- 
либо допущений относительно порядка вставки эле- 
ментов. Идея весьма проста: при вставке нового узла 
в дерево, состоящее из N узлов, вероятность появле- 
ния нового узла в корне должна быть равна 1/(ІѴ + 1), 
поэтому мы просто принимаем рандом изованное ре- 
шение использовать вставку в корень с этой вероят- 
ностью. В противном случае мы рекурсивно использу- 
ем метод для вставки новой записи в левое поддерево, 
если ключ записи меньше ключа в корне, и в правое 
поддерево — если он больше. Программа 13.2 содер- 
жит реализацию этого метода. 

Если использовать нерекурсивный подход, выпол- 
нение рандомизованной вставки эквивалентно вы- 
полнению стандартного поиска ключа с принятием на 
каждом шаге рандомизованного решения о том, про- 
должить ли поиск или прервать его и выполнить 
вставку в корень. Таким образом, как показано на 
рис. 13.2, новый узел может быть вставлен в любое 
место на пути поиска. Это простое вероятностное 
объединение стандартного алгоритма В8Т-дерева с 
методом вставки в корень обеспечивает гарантиро- 
ванную в смысле вероятности производительность. 







РИСУНОК 13.2 ВСТАВКА В 
РАНД0МИ30ВАНН0Е В5Т- ДЕРЕВО 

Новая запись в рандомизованном 
В ЗТ -дереве может располагаться 
в любом месте пути поиска 
записи , в зависимости от 
результата рандомизованных 
решений , принятых во время 
поиска. На этом рисунке 
показаны возможные 
местоположения записи, 
содержащей ключ Г, при ее 
вставке в пример дерева (верхний 
рисунок). 


Лемма 13.1 Построение рандомизованного ВЗТ-дерева эквивалентно построению стан- 
дартного ВЗТ-дерева из случайно переставленных в исходном состоянии ключей. Для кон- 
струирования рандомизованного ВЗТ-дерева из N элементов используется около 2/Ѵ1п7Ѵ 
сравнений (независимо от порядка вставки элементов ), а для выполнения поиска в та- 
ком дереве требуется приблизительно 2 1п/Ѵ сравнений. 


Каждый элемент с равной вероятностью может быть корнем дерева, и это свой- 
ство сохраняется и для обоих поддеревьев. Первая часть этого утверждения под- 
тверждается самим методом конструирования, но для подтверждения того, что 
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метод вставки в корень сохраняет случайность поддеревьев, требуется тщательное 
вероятностное обоснование {см. раздел ссылок). 

Различие между производительностью в усредненном случае для рандомизованных 
и стандартных ВЗТ-деревьев очень невелико, но имеет большое значение. Усреднен- 
ные затраты в обоих случаях одинаковы (хотя для рандомизованных деревьев коэф- 
фициент пропорциональности несколько выше), однако для случая стандартных де- 
ревьев результат зависит от допущения о представлении элементов к вставке в 
случайном порядке их ключей (их вставка в любом порядке равновероятна). Это до- 
пущение не справедливо во многих практических приложениях, и, следовательно, 
рандомизованный алгоритм примечателен тем, что позволяет избавиться от такого 
допущения и вместо этого исходить из законов распределения вероятностей в гене- 
раторе случайных чисел. При вставке элементов в порядке следования их ключей, в 
обратном порядке или любом другом порядке , В8Т-дерево все равно будет рандомизо- 
ванным. 

Программа 13.2 Вставка в рандомизованное В5Т-дерево 

Эта функция принимает рандомизованное решение о том, использовать ли метод 
вставки в корень программы 12.13 или стандартный метод вставки программы 12.8. 

В рандомизованном В5Т-дереве каждый из узлов с равной вероятностью является 
корнем; поэтому, помещая новый узел в корень дерева размера N с вероятностью 
1/(Л/ + 1), мы получаем рандомизованное дерево. 

ргіѵаѣе : 

ѵоігі. іпзегѣК(1іпк& Ь, Іѣет х) 

{ (Ь == 0) { Ь = пеѵ посіе (х) ; геѣигп; } 

(гапсіО < КАЫБ_МАХ/ (Ь->Ц+1) ) 

{ іпзег*:Т(Ь, х) ; геѣигп; } 

(х.кеуО < Ь->іѣет. кеу () ) 
іпзегѣК (Ь->1 , х) ; 
еізе іпзегѣК(Ь“>г , х) ; 

Ь->Ы++; 

} 

риЫіс : 

ѵоісі іпзегѣ (Іѣет х) 

{ іпзегѣК (Ьеасі, х) ; } 


На рис. 13.3 показано создание рандомизованного дерева для примера набора 
ключей. Поскольку принимаемые алгоритмом решения являются рандомизованны- 
ми, вероятно, последовательность деревьев при каждом выполнении алгоритма будет 
иной. На рис. 13.4 отражается тот факт, что рандомизованное дерево, сконструиро- 
ванное из набора элементов, ключи которых упорядочены по возрастанию, выглядит 
так же, как стандартное В5Т-дерево, построенное из элементов, следующих в случай- 
ном порядке (сравните с рис. 12.8). 

Существует вероятность, что при первой же возможности генератор случайных чи- 
сел может привести к неверному решению, обусловливая тем самым создание плохо 
сбалансированных деревьев, однако эту вероятность можно оценить математически 
и доказать, что она очень мала. 

Лемма 13.2 Вероятность того, что затраты на создание рандомизованного ВЗТ-дерева 
превышают усредненные затраты в а раз, меньше е~™. 
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Этот результат совпадает с результатами, полученны- 
ми из общего решения вероятностных соотношений, 
которые были разработаны Карпом (Кагр) в 1995 г. 
(см. раздел ссылок). 



Например, для построения рандом изованного В8Т-де- 
рева, состоящего из 100000 узлов, требуется около 2.3 мил- 
лиона сравнений, но вероятность того, что количество 
сравнений превысит 23 миллиона, значительно меньше 
0.01 процента. Подобная гарантия производительности 
более чем удовлетворяет практические требования, 
предъявляемые к обработке реальных наборов данных 
такого размера. Упомянутую гарантию нельзя обеспечить 
при использовании стандартного В8Т-дерева для выпол- 
нения такой задачи: например, придется столкнуться с 
проблемами снижения производительности, если данные 
в значительной степени упорядочены, что маловероятно 
для случайных данных, но по множеству причин доста- 
точно часто имеет место при работе с реальными данны- 
ми. 

По тем же соображениям, утверждение, аналогичное 
лемме 13.2, справедливо и по отношению к времени вы- 
полнения быстрой сортировки. Но в данном случае это 
еще более важно, поскольку отсюда следует, что затраты 
на поиск в дереве близки к усредненным. Независимо от 
дополнительных затрат на построение деревьев, стандар- 
тную реализацию В8Т-дерева можно использовать для 
выполнения операций зеагсН при затратах, которые зави- 
сят только от формы деревьев, при отсутствии вообще ка- 
ких-либо дополнительных затрат на балансировку. Это 
свойство важно в типовых приложениях, в которых опе- 
рации зеагсН гораздо более многочисленны, нежели лю- 
бые другие. Например, описанное в предыдущем абзаце 
В8Т-дерево, состоящее из 100000 узлов, могло бы содер- 
жать телефонный справочник и использоваться для вы- 
полнения миллионов поисков. Можно быть почти уверен- 
ным, что каждый поиск потребует затрат, которые 
отличаются от усредненных затрат, равных приблизитель- 
но 23 сравнениям, лишь небольшим постоянным коэф- 
фициентом. Поэтому на практике можно не беспокоить- 
ся, что для большого количества поисков потребуется 
количество сравнений, приближающееся к 100000, в то 
время как при использовании стандартных В8Т-деревьев 
это было бы весьма актуально. 





РИСУНОК 13.3 ПОСТРОЕНИЕ 
РАНДОМИЗОВАННОГО В$Т- 
ДЕРЕВА 

На этих рисунках показана 
вставка ключей АВСПЕЕ 
С Н / в первоначально пустое 
В 8Т- дерево методом 
рандомизованных вставок. 
Дерево на нижнем рисунке 
выглядит так же, как если бы 
оно было построено с 
применением стандартного 
алгоритма ВБТ-дерева при 
вставке этих же ключей в 
случайном порядке. 
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РИСУНОК 13.4 БОЛЬШОЕ РАНД0МИ30ВАНН0Е В5Т-ДЕРЕВ0 

Это ВЗТ-дерево является результатом рандомизованной вставки 200 элементов в порядке 
возрастания их ключей в первоначально пустое дерево . Дерево выглядит так , как если бы оно было 
построено из ключей , расположенных в случайном порядке (см. рис. 12.8). 


Один из главных недостатков рандомизованной вставки — затраты на генерацию 
случайных чисел в каждом из узлов во время каждой вставки. Высокопроизводитель- 
ный системный генератор случайных чисел может работать с большой нагрузкой для 
генерации псевдослучайных чисел с большей степенью случайности, чем требуется для 
В$Т-деревьев. Поэтому в определенных реальных ситуациях (например, если допу- 
щение о случайном порядке следования элементов справедливо) конструирование 
рандомизованного В5Т-дерева может оказаться более медленным процессом, чем 
построение стандартного В$Т-дерева. Подобно тому как это делалось в случае быс- 
трой сортировки, эти затраты можно снизить, используя числа, которые не являют- 
ся совершенно случайными, но не требуют больших затрат при генерации и достаточ- 
но подобны случайным числам. Тем самым минимизируется возникновение худших 
случаев В5Т-деревьев при последовательностях вставок ключей, которые вполне мо- 
гут встретиться на практике (см. упражнение 13.14). 

Еще один потенциальный недостаток рандомизованных В8Т-деревьев — необхо- 
димость наличия в каждом узле поля количества узлов поддерева данного узла. До- 
полнительный объем памяти, требуемый для поддержки этого поля, может оказать- 
ся чрезмерной платой для больших деревьев. С другой стороны, как было показано 
в разделе 12.9, это поле может требоваться по ряду других причин — например, дія 
поддержки операции зеіесі или для обеспечения проверки целостности структуры дан- 
ных. В подобных случаях рандомизованные В8Т-деревья не требуют никаких допол- 
нительных затрат памяти и их использование представляется весьма привлекатель- 
ным. 

Основной принцип сохранения случайной структуры деревьев ведет также к эф- 
фективным реализациям операций гетоѵе, ]оіп и других операций для АТД таблицы 
символов, обеспечивая при этом создание рандомизованных деревьев. 

Для объединения дерева, состоящего из N узлов, с деревом, состоящим из М узлов, 
используется базовый метод, описанный в главе 12, за исключением принятия ран- 
домизованного решения о выборе корня исходя из того, что корень объединенного 
дерева должен выбираться из А-узлового дерева с вероятностью А / (М + А), а из 
А/-узлового дерева — с вероятностью М / (М + А). Программа 13.3 содержит реали- 
зацию этой операции. 
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Программа 13.3 Комбинация рандомизованных В $Т- деревьев 

В этой функции используется тот же метод, что и в программе 12.17, за исключе- 
нием того, что в ней принимается рандомизованное, а не произвольное решение 
о том, какой узел использовать в качестве корня объединенного дерева, исходя из 
равной вероятности размещения корня в любом узле. Приватная функция-член ИхЫ 
обновляет Ь->Ы значением, которое на 1 больше суммы соответствующих полей в 
поддеревьях (0 для нулевых деревьев). 

ргіѵаѣе : 

Ііпк зо±пК(1іпк а, Ііпк Ь) 

{ 

(а == 0) геЬигп Ъ; 

(Ь ~ 0) гейигп а; 
іпзегЬК(Ь, а->і-Ьет) ; 

Ъ->1 = ]оіпК(а->1, Ъ->1) ; 

Ъ->г = ]оіпК(а->г, Ъ->г) ; 
сіеІеЬе а; ^іхЫ(Ъ); гейигп Ь; 

} 

риЫіс : 

ѵоісі ]оіп (5Т<І*Ьет, Кеу>& Ъ) 

{ іпі N = Ьеасі-Ж; 

і* (гапсі()/(НАНО_МАХ/(Ы+Ь.Ьеасі->Н)+1) < И) 

Ьеасі = ^іпК (Ьеасі, Ь. Ьеасі) ; 
еізе Ьеасі = зоіпК (Ь. Ьеасі, Ьвасі); } 


Аналогично, произвольное решение заменяется рандомизованным в алгоритме 
гетоѵе , как показано в программе 13.4. Этот метод соответствует нерассмотренному 
варианту реализации удаления узлов в стандартных В5Т-деревьях, поскольку он при- 
водил бы (при отсутствии рандомизации) к несбалансированным деревьям (см. упраж- 
нение 13.21). 

Программа 13.4 Удаление в рандомизованном В5Т-дереве. 

Мы используем ту же функцию гетоѵе, которая применялась для стандартных В5Т- 
деревьев (см. программу 12.6), но при этом функция іоіпІ-К заменяется функцией, 
приведенной здесь, которая принимает рандомизованное, а не произвольное ре- 
шение о замещении удаленного узла предком или потомком, исходя из того, что 
каждый узел в результирующем дереве с равной вероятностью может быть корнем. 
Чтобы правильно поддерживать счетчики узлов, в качестве последнего оператора в 
функции гетоѵеВ необходимо также включить вызов функции ИхЫ (см. программу 
13.3) для Ь. 

Ііпк зоіпЬК(1іпк а, Ііпк Ь) 

{ 

і€ (а == 0) геѣигп Ь; 
і€ (Ь == 0) геѣигп а; 

(гапсі ( ) / (НА1ГО_МАХ/ (а-Ж+Ъ-Ж) +1) < а-Ж) 

{ а->г = ^іпііК ( а->г , Ь) ; ге*Ьигп а; } 
еізе { Ъ->1 = }ОІпЬК(а, Ъ->1) ; геѣигп Ъ; } 

} 


Лемма 13.3 Создание дерева через произвольную последовательность рандомизованных 
операций вставки , удаления и объединения эквивалентно построению стандартного 
В8Т -дерева за счет случайной перестановки ключей в дереве. 
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Как и в случае с леммой 13.1, для доказательства этого утверждения требуется тща- 
тельный вероятностный анализ {см. раздел ссылок). 

Доказатедьства свойств вероятностных алгоритмов требуют хорошего понимания 
теории вероятностей, тем не менее, понимание этих доказательств отнюдь не обяза- 
тельно для программистов, использующих алгоритмы. Осмотрительный программист 
в любом случае проверит утверждения, подобные лемме 13.2, не зависимо от того, 
как они обоснованы (например, убеждаясь в качестве генератора случайных чисел 
или иных особенностей реализации), и, следовательно, сможет использовать эти ме- 
тоды со знанием дела. Рандомизованные В8Т-деревья — вероятно, простейший спо- 
соб поддержки АТД заполненной таблицы символов при гарантировании почти опти- 
мальной производительности. Именно поэтому они находят применение во многих 
практических приложениях. 

Упражнения 

О 13.8 Нарисуйте рандомизованное В8Т-дерево, образующееся в результате встав- 
ки элементов с ключами ЕА8V^^ТIОNв указанном порядке в первона- 
чально пустое дерево при условии, что плохо выполняющая рандомизацию фун- 
кция, приводящая к вставке в корень, применяется во всех случаях, когда размер 
дерева является нечетным. 

13.9 Создайте программу-драйвер, которая 1000 раз выполняет следующий экспе- 
римент для N = 10 и 100: используя программу 13.2, вставляет ключи от 0 до 1 
(в указанном порядке) в первоначально пустое рандомизованное В8Т-дерево, а 
затем выводит статистическую функцию % 2 , исходя из предположения, что вероят- 
ность попадания каждого ключа в корень равна 1/А (см. упражнение 14.5). 

о 13.10 Укажите вероятность попадания ключа Г в каждую из позиций, показанных 
на рис. 13.2. 

13.11 Создайте программу вычисления вероятности того, что рандомизованная 
вставка завершается в одном из внутренних узлов данного дерева для каждого из 
узлов в пути поиска. 

13.12 Создайте программу вычисления вероятности того, что рандомизованная 
вставка завершается в одном из внешних узлов данного дерева. 

о 13.13 Реализуйте нерекурсивную версию функции рандомизованной вставки, при- 
веденной в программе 13.2. 

13.14 Нарисуйте рандомизованное В8Т-дерево, образующееся в результате встав- 
ки элементов с ключами ЕА8V^^ТIОNв указанном порядке в первона- 
чально пустое дерево при использовании версии программы 13.2, в которой вы- 
ражение, содержащее функцию гапс1(), заменяется проверкой (111 % Іі->ІЧ) == 3 
для принятия решения о применении вставки в корень. 

13.15 Выполните упражнение 13.9 для версии программы 13.2, в которой выраже- 
ние, содержащее функцию гапгі(), заменяется проверкой (111 % Ь->ІЧ) == 3 для 
принятия решения о применении вставки в корень. 

13.16 Приведите последовательность рандомизованных решений, которая привела 
бы к построению вырожденного дерева (в котором все ключи упорядочены, а ле- 
вые связи являются нулевыми) из ключей ЕА8Ѵ(ЗІІТІОІѴ. Какова вероят- 
ность возникновения этого события? 
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13.17 Может ли любое В8Т-дерево, содержащее ключи ЕА8У(21ІТІОІЧ, быть 
построено посредством какой-либо последовательности принятия рандомизованных 
решений, если эти ключи вставляются в указанном порядке в первоначально пу- 
стое дерево? Обоснуйте свой ответ. 

13.18 Определите эмпирическим путем среднее значение и стандартное отклоне- 
ние количества сравнений, используемых для обнаружения попаданий и промахов 
при поиске в рандомизованном В8Т-дереве, построенном в результате вставки N 
случайных ключей в первоначально пустое дерево, при N = ІО 3 , ІО 4 , ІО 5 и ІО 6 . 

> 13.19 Нарисуйте В8Т-дерево, образующееся в результате использования програм- 
мы 13.4 для удаления ключа (2 из дерева, построенного в упражнении 13.4, при ис- 
пользовании проверки он % (а->N + Ъ->ІѴ)) < а->N для принятия решения об 
объединении с помещением а в корень. 

13.20 Нарисуйте В8Т-дерево, образующееся в результате вставки элементов с клю- 
чами Е А 8 У в первоначально пустое дерево, вставки элементов с ключами О II 
Е 8 Т I О N в другое первоначально пустое дерево и последующего объединения 
результата за счет использования программы 13.3 с выполнением проверки, опи- 
санной в упражнении 13.19. 

13.21 Нарисуйте В8Т-дерево, образующееся в результате вставки элементов с клю- 
чами ЕА8У^^ТIОNв указанном порядке в первоначально пустое дерево 
и последующего применения программы 13.4 для удаления ключа (2, при исполь- 
зовании плохо выполняющей рандомизацию функции, которая всегда возвраща- 
ет 0. 

13.22 Экспериментально определите увеличение высоты В8Т-дерева при выпол- 
нении длинной последовательности чередующихся вставок и удалений с помощью 
программ 13.2 и 13.3 в дереве, состоящем из А узлов, при N - 10, 100 и 1000 и при 
выполнении А 2 пар вставок-удалений для каждого А. 

о 13.23 Сравните результаты, полученные в результате выполнения упражнения 
13.22, с результатом удаления и повторной вставки наибольшего ключа в рандо- 
мизованном дереве, состоящем из А узлов, при использовании программ 13.2 и 
13.3 для N = 10, 100 и 1000 и при выполнении N 2 пар вставок-удалений для каж- 
дого N. 

13.24 Модифицируйте программу из упражнения 13.22 для определения усреднен- 
ного количества вызовов функции гаіні(), выполняемого ею для удаления одно- 
го элемента. 

13.2 Расширенные деревья бинарного поиска 

В методе вставки в корень, описанном в разделе 12.8, основная цель достигалась 
путем перемещения вновь вставленного узла в корень дерева с помощью ротации 
влево и вправо. В этом разделе исследуются способы модификации метода вставки в 
корень, чтобы ротации также в определенном смысле балансировали дерево. 

Вместо того чтобы рассматривать (рекурсивно) единственную ротацию, которая 
перемещает недавно вставленный узел к вершине дерева, рассмотрим две ротации, 
которые перемещают узел из позиции в одном из дочерних узлов корня к вершине 
дерева. Вначале выполняется одна ротация, которая сделает узел дочерним узлом 
корня. Затем при помощи еще одной ротации он перемещается в корень. Существует 
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два принципиально различных случая, в зависимости 
от того, одинаково ли ориентированы две связи от кор- 
ня к вставляемому узлу. На рис. 13.5 показан случай, 
когда ориентации различны; в правой части рис. 13.6 
изображен случай, когда ориентации одинаковы. В ос- 
нове обработки расширенных В5Т-деревьев лежит на- 
блюдение о существовании альтернативного способа 
выполнения действий, когда связи от корня к вставля- 
емому узлу ориентированы одинаково: достаточно вы- 
полнить две ротации в корне, как показано в правой 
части рис. 13.6. 

Вставка со скосом (нріау іпзегііоп) перемещает вновь 
вставленные узлы в корень за счет применения транс- 
формаций, показанных на рис. 13.5 (стандартной встав- 
ки в корень, когда связи от корня к дочернему узлу в 
пути поиска имеют различную ориентацию) и в правой 
части рис. 13.6 (двух ротаций в корне, когда связи от 
корня к дочернему узлу в пути поиска имеют одина- 
ковую ориенгацию). Построенные таким образом В5Т- 
деревья являются расширенными В ВТ -деревьями. Про- 
грамма 13.5 содержит рекурсивную реализацию вставки 
с расширением; пример одиночной вставки приведен 
на рис. 13.7, а процесс построения примера дерева по- 
казан на рис. 13.8. Различие между вставкой с расши- 
рением и стандартной вставкой в корень может пока- 
заться несущественным, но оно достаточно важно: 
расширение исключает худший случай квадратичной 
зависимости времени выполнения, являющийся глав- 
ным недостатком стандартных В$Т-деревьев. 


Программа 13.5 Вставка с расширением в В5Т- деревья 





РИСУНОК 13.5 ДВОЙНАЯ 
РОТАЦИЯ В В5Т-ДЕРЕВЕ 
(ОРИЕНТАЦИИ РАЗЛИЧНЫ) 

В этом простом дереве (вверху) 
в результате ротации влево в 
узле С, за которой следует 
ротация вправо в узле Ь> узел I 
помещается в корень (внизу). 
Эти ротации могут завершать 
процесс вставки в стандартном 
или скошенном ВВТ-дереве. 


Эта функция отличается от алгоритма вставки в корень программы 12.13 лишь од- 
ной существенной особенностью: если путь поиска проходит влево-влево или впра- 
во-вправо, узел перемещается в корень путем двойной ротации от вершины, а не 
от нижней части (см. рис. 13.6). 


Программа проверяет четыре варианта для двух шагов пути поиска от корня и вы- 
полняет соответствующие ротации: 


влево-влево: дважды выполняет ротацию влево в корне; 

влево-вправо : выполняет ротацию влево в левом дочернем узле, а затем вправо в 
корне; 

вправо-вправо : дважды выполняет ротацию вправо в корне; 

вправо-влево : выполняет ротацию вправо в правом дочернем узле, а затем ротацию 
влево в корне. 


ѵоіЦ зр1ау(1іпк& Ь, Іѣет х) 
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{ 

і* (Ь = 0) 

{ Ъ. - пѳѵ посіе(х, 0, О, 1); ге-Ьигп; } 

(х.кеуО < Ь->і-Ьет.кеу () ) 

{ 1іпк& Ы = Ь->1; іп-Ь N = Ь-Ж; 
і* (Ы = 0) 

{ Ь = пв*г по сіе (х, О, Ь, N+1); гв-Ьигп; } 

(х.кеуО < Ы->і-Ьет. кеу () ) 

{ зр1ау(Ы->1, х) ; гоЬК(Ь) ; } 
еізе { зр1ау(Ы->г, х) ; гоЬЬ(Ы); } 
гоІЛ(Ь) ; 

} 


{ Ііпк &Ьг = Ь->г; іп-Ь N = Ь-Ж; 
і5 (Ьг = 0) 

{ Ь = пеѵ по<іе(х, Ь, 0, N+1); геЬигп; } 

(Ьг->і-Ьет.кеу () < х.кеуО) 

{ зр1ау(Ьг->г, х) ; гоЬЬ(Ь); } 
еізе { зріау (йг->1 , х) ; го-ЬК(Ьг); } 
гоЫі(Ь) ; 

} 

} 

риЫіс : 

ѵоісі іпзегЬ(ІЬет іЬет) 

{ зріау (Ъѳасі , ІЬет) ; } 










РИСУНОК 13.6 ДВОЙНАЯ РОТАЦИЯ В В5Т-ДЕРЕВЕ (ОРИЕНТАЦИИ ОДИНАКОВЫ) 


Когда обе связи в двойной ротации ориентированы в одном направлении , существуют две 
возможности. При использовании стандартного метода вставки в корень вначале выполняется 
ротация в узле, расположенном ниже (слева); при использовании вставки со скосом вначале 
выполняется вставка в узле, расположенном выше (справа). 
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Лемма 13.4 Количество сравнений , используемых при 
построении расширенного дерева путем N вставок в 
первоначально пустое дерево, равно 0(ІЧ\&М). 

Это утверждение — следствие более жесткой лем- 
мы 13.5, которая будет вскоре рассмотрена. 

Подразумевается, что константа в О-нотации 
имеет значение 3. Например, для построения ВЗТ- 
дерева, состоящего из 100000 узлов, с использовани- 
ем вставки с расширением всегда требуется менее 5 
миллионов сравнений. Это не гарантирует, что 
результирующее дерево поиска будет хорошо сба- 
лансировано и что каждая операция будет эффектив- 
ной, но тем не менее обеспечивает весьма значи- 



тельную гарантию в отношении общего времени 
выполнения; на практике фактическое время вы- 
полнения, скорее всего, откажется еще меньшей. 

При вставке узла в В$Т-дерево с использованием 
вставки с расширением мы не только перемещаем 
этот узел в корень, но и перемещаем все встретив- 
шиеся узлы (в пути поиска) ближе к корню. Точнее 
говоря, выполняемые ротации уменьшают в два 
раза расстояние от корня до любого встретившего- 
ся узла. Это свойство сохраняется также при реали- 
зации операции зеагсіі таким образом, чтобы во вре- 
мя поиска она выполняла трансформации с 
расширением. Некоторые пути в деревьях удлиня- 
ются: если обращение к узлам в этих путях не вы- 
полняется, указанный эффект не имеет значения. 
Если же мы обращаемся к узлам в длинном пути, 
после обращения он укорачивается в два раза; таким 



РИСУНОК 13.7 ВСТАВКА С 
РАСШИРЕНИЕМ 

На этом рисунке изображен 
результат (внизу) вставки записи с 
ключом 2> в пример дерева , 
приведенный на верхнем рисунке , с 
использованием вставки в корень с 
расширением. В этом случае процесс 
вставки состоит из двойной 
ротации влево-вправо , за которой 
следует двойная ротация вправо- 
вправо (от вершины). 


образом, ни один путь не может порождать больших затрат. 


Лемма 13.5 Количество сравнений, требуемых для любой последовательности М опера- 
ций вставки или поиска в N -узловом расширенном В8Т-дереве, равно 


0((7Ѵ + М)1§(УѴ + М)). 

Доказательство этого утверждения, приведенное Слеатором (Зіеаіог) и Тарьяном 
(Тацап) в 1985 г. — классический пример амортизационного анализа ( алгоритмов 
(см. раздел ссылок). Подробно он исследуется в части 8. 


Лемма 13.5 представляет гарантию амортизационного алгоритма: мы гарантиру- 
ем не эффективность каждой операции, но эффективность усредненных затрат всех 
выполненных операций. Это усредненное значение не является вероятностным; ско- 
рее можно утверждать, что общие затраты гарантированно будут низкими. Для мно- 
гих приложений такого рода гарантии достаточно, но для других приложений этого 
может оказаться мало. Например, нельзя гарантировать время ответа для каждой 
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операции при использовании расширенных В5Т-деревьев, 
поскольку время выполнения некоторых операций может 
определяться линейной зависимостью. Если какая-либо 
операция занимает время, которое определяется линейной 
зависимостью, существует гарантия, что другие операции 
будут выполняться гораздо быстрее, но это — слабое уте- 
шение для клиента, который вынужден ожидать. 

Предельное значение, приведенное в лемме 13.5 — пре- 
дельное значение общих затрат на все операции для худше- 
го случая: как это типично для предельных значений худ- 
ших случаев, эти затраты могут быть гораздо выше 
фактических. Операции с расширением перемещают недав- 
но посещенные элементы ближе к вершине дерева; поэто- 
му этот метод привлекателен для приложений поиска, име- 
ющих неоднородные шаблоны обращения — особенно для 
приложений со сравнительно небольшим, пусть даже и мед- 
ленно изменяющимся, рабочим набором элементов, к ко- 
торым выполняется обращение. 

На рис. 13.9 приведены два примера, демонстрирующие 
эффективность операций расширения-ротации при балан- 
сировке дерева. На этих рисунках вырожденное дерево (по- 
строенное за счет вставки элементов в порядке их ключей) 
приводится в сравнительно хорошо сбалансированное со- 
стояние в результате небольшого числа операций зеагсИ. 

Обобщая, можно сказать, что небольшое количество 
выполненных поисков существенно улучшает сбалансиро- 
ванность дерева. 

Если в дереве поддерживаются дублированные ключи, то 
операция с расширением может привести к тому, что эле- 
менты с ключами, равными ключу в данном узле, попадут 
по обе стороны от этого узла (см. упражнение 13.38). Из 
этого следует, что нельзя найти все элементы с данным 
ключом столь же легко, как это имело место в стандартных 
ВЗТ-деревьях. Необходимо проверить наличие дубликатов 
в обоих поддеревьях или воссПользоваться каким-либо аль- 
тернативным методом для работы с дублированными клю- 
чами, как было описано в главе 12. 


Упражнения 






РИСУНОК 13.8 ПОСТРОЕНИЕ 
РАСШИРЕННОГО ДЕРЕВА 

Эта последовательность 
рисунков демонстрирует 
вставку записей с ключами 

А5 Е Я С Н I N С в 

первоначально пустое 
дерево с использованием 
вставки с расширением. 


> 13.25 Нарисуйте расширенное В5Т-дерево, образованное в результате вставки 
элементов с ключами ЕА8V^^ТIОNв указанном порядке в первоначаль- 
но пустое дерево с использованием вставки с расширением. 



Часть 4. Поиск 




РИСУНОК 13.9 БАЛАНСИРОВКА ХУДШЕГО СЛУЧАЯ РАСШИРЕННОГО ДЕРЕВА С ПОМОЩЬЮ ПОИСКА 

Вставка ключей по порядку в первоначально пустое дерево с использованием вставки с расширением 
требует только постоянного количества шагов для выполнения одной вставки , но создает 
несбалансированное дерево, показанное на верхних рисунках. Последовательность рисунков слева 
отображает результат поиска (с расширением) наименьшего, второго, третьего и четвертого 
наименьших ключей в дереве. Каждый поиск уменьшает длину пути к искомому ключу (и к 
большинству других ключей в дереве) в два раза. Последовательность рисунков справа показана 
балансировка этого же худшего случая дерева с использованием последовательности случайных 
попаданий при поиске. Каждый поиск уменьшает вдвое количество узлов в своем пути, уменьшая 
длину путей поиска и множества других узлов в дереве. 



т 
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> 13.26 Сколько связей дерева должно быть изменено для выполнения двойной ро- 
тации? Сколько связей действительно изменяется при выполнении каждой из двой- 
ных ротаций в программе 13.5? 

13.27 Добавьте в программу 13.5 реализацию операции зеагсН с расширением. 

о 13.28 Реализуйте нерекурсивную версию функции вставки с расширением в про- 
грамме 13.5. 

13.29 Используйте программу-драйвер, созданную в упражнении 12 . 30 , для опре- 
деления эффективности расширенных В$Т-деревьев в качестве самоорганизую- 
щихся структур, сравнив их со стандартными В8Т-деревьями для распределений 
запросов на поиск, определенных в упражнениях 12.31 и 12 . 32 . 

о 13.30 Нарисуйте все структурно различные В$Т-деревья, которые могут быть об- 
разованы в результате вставки N ключей в первоначально пустое дерево с исполь- 
зованием вставки с расширением, при 2 < N < 7 . 

• 13.31 Определите вероятность того, что каждое из деревьев в упражнении 13.30 
образовано в результате вставки N случайных различных элементов в первона- 
чально пустое В$Т-дерево. 

о 13.32 Определите эмпирически среднее значение и стандартное отклонение ко- 
личества сравнений, используемых для обнаружения попаданий и промахов при 
поиске в В8Т-дереве, построенного в результате вставки N случайных ключей в 
первоначально пустое дерево с использованием вставки с расширением, при 
N = ІО 3 , ІО 4 , 10 5 и ІО 6 . Не следует выполнять какие-либо поиски: просто построй- 
те деревья и вычислите длину их путей. Являются ли расширенные В$Т-деревья 
сбалансированными в большей степени, чем произвольные В8Т-деревья, в мень- 
шей степени или так же? 

13.33 Усовершенствуйте программу, созданную для упражнения 13.32, чтобы она 
выполняла N случайных поисков (скорее всего, они будут неудачными), выполняя 
расширение в каждом из созданных деревьев. Как расширение влияет на среднее 
количество сравнений, необходимых для выявления промаха при поиске? 

13.34 Измените программы, созданные для упражнений 13.32 и 13 . 33 , чтобы они 
измеряли время выполнения, а не просто подсчитывали количество сравнений. 
Проведите аналогичные эксперименты. Поясните любые изменения в выводах, 
получаемых из экспериментальных результатов. 

13.35 Сравните расширенные В$Т-деревья со стандартными В$Т-деревьями при- 
менительно к задаче построения индекса из фрагмента реального текста, содер- 
жащего по меньшей мере 1 миллион символов. Измерьте время, требуемое для 
построения индекса и средние длины путей в В$Т-деревьях. 

13.36 Определите экспериментально среднее количество сравнений для обнаруже- 
ния попаданий при поиске в расширенном В$Т-дереве, построенном в результа- 
те вставки произвольных ключей, при N — 10 3 , ІО 4 , ІО 5 и ІО 6 . 

13.37 Прибегните к экспериментальному исследованию с целью проверки идеи 
использования вставки с расширением вместо стандартной вставки в корень для 
рандомизованных В5Т-деревьев. 

> 13.38 Нарисуйте расширенное В$Т-дерево, образованное в результате вставки 
элементов с ключами 000000000000 1 в указанном порядке в первоначально 
пустое дерево. 
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13.3 Нисходящие 2-3-4-деревья 

Несмотря на гарантию производительности, которую 
можно обеспечить при использовании рандомизованных 
и расширенных В8Т-деревьев, в обоих случаях не ис- 
ключается вероятность того, что время выполнения от- 
дельной операции поиска может определяться линейной 
зависимостью. Следовательно, эти методы не помогают 
ответить на основной вопрос в отношении сбалансиро- 
ванных деревьев: существует ли тип В8Т-дерева, для ко- 
торого можно гарантировать логарифмическую зависи- 
мость времени выполнения каждой операции іпзегі и 
зеагсИ от размеров дерева? В этом и следующем разделах 
мы рассмотрим абстрактное обобщение В8Т-деревьев и 
абстрактное представление этих деревьев в виде типа 
В8Т-дерева, которые позволяют утвердительно ответить 
на этот вопрос. 

Для гарантии того, что создаваемые В8Т-деревья бу- 
дут сбалансированными, используемые структуры дере- 
вьев должны обладать определенной гибкостью. Для по- 
лучения подобной гибкости давайте предположим, что 
узлы в наших деревьях могут содержать более одного 
ключа. В частности, мы допускаем существование 3-уз- 
лов и 4-узлов , которые могут содержать, соответственно, 
два и три ключа. 3-узел имеет три исходящие из него связи: одну ко всем элементам, 
ключи которых меньше обоих его ключей, одну ко всем элементам, ключи которых 
располагаются между двумя его ключами, и одну ко всем элементам, ключи которых 
больше обоих его ключей. Аналогично, 4-узел имеет 4 исходящих связи: по одной для 
каждого из интервалов, определенных его тремя ключами. Таким образом, узлы в 
стандартном В8Т-дереве можно было бы называть 2-узлами : они содержат один ключ 
и две связи. Позже мы рассмотрим эффективные способы определения и реализации 
базовых операций с этими расширенными узлами; а пока давайте примем, что ими 
можно манипулировать обычным образом, и посмотрим, как их можно собрать во- 
едино для образования деревьев. 

Определение 13.1 2-3-4-дерево поиска — это либо пустое дерево , либо дерево , содер- 
жащее три типа узлов: 2 -узлы с одним ключом , левой связью к дереву с меньшими клю- 
чами и правой связью к дереву с большими ключами; 3-узлы с двумя ключами, с левой 
связью к дереву с меньшими ключами , средней связью к дереву, значения ключей кото- 
рых лежат между значениями ключей данного узла , и правой связью к дереву с больши- 
ми ключами; и 4-узлы с тремя ключами и четырьмя связями к деревьям, значения клю- 
чей которых определены диапазонами, образованными ключами узла. 

Определение 13.2 Сбалансированное 2-3-4-дерево поиска — это 2-3-4-дерево поис- 
ка, все пустые деревья которого расположены на одинаковом расстоянии от корня . 



РИСУНОК 13.10 2-3-4-ДЕРЕВО 

На этом рисунке изображено 
2-3-4-дерево, содержащее 
ключиАЕКСНШСЕХМ 
Р Ь. В таком дереве ключ 
можно отыскать, используя 
ключи в узле, расположенном в 
корне, для нахождения связи к 
поддереву, а затем 
продолжить рекурсивное 
выполнение поиска. Например, 
для выполнения поиска кіюча Р 
в этом дереве потребовалось 
бы проследить правую связь от 
корня, поскольку Р больше I, 
затем — среднюю связь от 
правого дочернего дерева 
корня, поскольку значение Р 
располагается между N и Я, и, 
наконец, завершить успешный 
поиск во втором узле, 
содержащем ключ Р. 





Глава 13, Сбалансированные деревья 


В этой главе термин 2-3-4-дерево будет применяться 
к сбалансированным 2-3-4-деревьям поиска (вообще 
говоря, в других контекстах он обозначает более общую 
структуру). Пример 2-3-4-дерева приведен на рис, 13.10. 
Алгоритм поиска ключей в таком дереве представляет 
собой обобщение алгоритма поиска для В5Т-деревьев. 
Чтобы выяснить, находится ли ключ в дереве, мы срав- 
ниваем его с ключами в корне: если он равен любому 
из них, имеет место попадание при поиске; в противном 
случае мы отслеживаем связь от корня к поддереву, со- 
ответствующему набору значений ключей, который дол- 
жен содержать искомый ключ, и рекурсивно выполня- 
ем поиск в этом дереве. Существует ряд способов 
представления 2-, 3- и 4-узлов и для организации поис- 
ка соответствующей связи; отложим рассмотрение этих 
решений до раздела 13.4, где приводится особенно удоб- 
ная организация поиска. 

Для вставки нового узла в 2-3-4-дерево можно было 
бы выполнить безрезультатный поиск, а затем присое- 
динить узел, как это делалось в В5Т-деревьях, но при 
этом новое дерево оказалось бы несбалансированным. 
Основная особенность, делающая 2-3-4-деревья столь 
важными, состоит в том, что можно выполнять вставки, 
всегда сохраняя полную сбалансированность дерева. 
Например, легко видеть, что делать, если поиск преры- 
вается на 2-узле: достаточно преобразовать его в 3-узел. 
Аналогично, если поиск прерывается на 3-узле, его до- 
статочно преобразовать в 4-узел. Но что делать, если 
поиск прерывается на 4-узле? Решение состоит в том, 
что можно освободить место для нового ключа, сохра- 
няя сбалансированность дерева, вначале разделив 4- 
узел на два 2-узла, передвинув средний узел вверх к 
родительскому узлу данного узла. Эти три описанных 
случая проиллюстрированы на рис. 13.11. 

А что делать, если необходимо разделить 4-узел, ро- 
дительский узел которого — также 4-узел? Одним из 
возможных методов было разделение также и родитель- 
ского узла, но узел -предок также мог бы оказаться 4- 
узлом и т.д. — возможно, пришлось бы разделять узлы 
вдоль всего дерева. Более простой подход заключается в 
обеспечении того, чтобы путь поиска не завершался в 4- 
узле за счет разделения любого 4-узла, попадающегося 
на пути вниз по дереву. 



РИСУНОК 13.11 ВСТАВКА В 
2-3-4-ДЕРЕВО 

2- 3-4-дерево , состоящее только 
из 2-узлов, аналогично В8Т- 
дереву (верхний рисунок). Ключ 
С можно вставить, 
преобразовав 2-узел, в котором 
прерывается поиск С, в 3-узел 
(второй сверху рисунок). 
Аналогично, можно вставить 
ключ Н, преобразовав 3-узел, в 
котором прерывается его 
поиск, в 4-узел (третий сверху 
рисунок). Для вставки ключа I 
требуется выполнение 
дополнительных действий, 
поскольку его поиск 
прерывается в 4-узле. Вначале 
мы разделяем 4-узел, передавая 
его средний ключ родительскому 
узлу, и преобразуем этот узел в 

3- узел (четвертый сверху, 
выделенный рисунок). Такое 
преобразование создает 
допустимое 2-3-4-дерево, в 
нижней части которого 
появляется место для 1. И, 
наконец, мы вставляем I в 2- 
узел, на котором теперь 
прерывается поиск, и 
преобразуем этот узел в 3-узел 
(нижний рисунок). 


Часть 4. Поиск 


В частности, как показано на рис. 13.12, каждый раз, 
когда встречается 2-узел, соединенный с 4-узлом, такая 
пара преобразуется в 3-узел, соединенный с двумя 2-уз- 
лами; а когда встречается 3-узел, соединенный с 4-уз- 
лом, пара преобразуется в 4-узел, соединенный с двумя 
2-узлами. Разделение 4-узлов возможно потому, что 
можно перемещать не только ключи, но и связи. Два 2- 
узла имеют столько же (четыре) связей, как и 4-узел, по- 
этому разделение можно выполнить, не внося никаких 
изменений ниже (или выше) разделяемого узла. 3-узел 
не преобразуется в 4-узел одним лишь добавлением еще 
одного ключа; требуется также еще один указатель (в 
этом случае — дополнительная связь, созданная разделе- 
нием). Очень важно, что эти преобразования являются 
чисто локальными: никакую часть дерева, кроме пока- 
занной на рис. 13.12, не нужно исследовать или изме- 
нять. Каждое преобразование передает один из ключей 
4-узла в его родительский узел и соответствующим обра- 
зом преобразует связи. 

Спускаясь вниз по дереву, не нужно беспокоиться 
явно о родительском узле текущего 4-узла, поскольку 
выполняемые преобразования обеспечивают, что при прохождении каждого узла в 
дереве мы попадаем в узел, который не является 4-узлом. В частности, при достиже- 
нии нижней части дерева мы оказываемся не в 4-узле и можем вставить новый узел, 
непосредственно выполнив преобразование 2-узла в 3-узел либо 3-узла в 4-узел. 
Вставку можно считать разделением воображаемого 4-узла в нижней части, переда- 
ющим вверх новый ключ. 

Одно заключительное замечание: всегда, когда корень дерева становится 4-узлом, 
мы просто разделяем его, преобразуя в треугольник, состоящий из трех 2-узлов, как 
это делалось для первого разделяемого узла в предыдущем примере. Разделение кор- 
ня после вставки несколько удобнее альтернативного подхода, когда приходится ожи- 
дать, пока новая вставка выполнит разделение, поскольку не нужно заботиться о 
родительском узле корня. Разделение корня ( и только эта операция) приводит к уве- 
личению высоты дерева на один уровень. 

На рис. 13.13 представлено посроение 2-3-4-дерева для тестового набора ключей. 
В отличие от стандартных В$Т-деревьев, которые разрастаются вниз от вершины, эти 
деревья разрастаются вверх от нижней части. Поскольку 4-узлы разделяются на пути 
от вершины вниз, деревья называются нисходящими 2-3-4-деревьями. Этот алгоритм 
важен, поскольку он создает практически идеально сбалансированные деревья поис- 
ка, хотя в процессе прохождения по дереву выполняются всего лишь несколько ло- 
кальных преобразований. 

Лемма 13.6 При поиске в Ы-узловых 2-3-4-деревьях посещаются максимум 1§УѴ + 1 

узлов. 



РИСУНОК 13.12 РАЗДЕЛЕНИЕ 
4-УЗЛОВ В 2-3-4-ДЕРЕВЕ 

В 2-3-4-дереве любой 4-узел , 
который не является дочерним 
узлом 4-узла, можно разделить 
на два 2 -у зла, передав его 
среднюю запись родительскому 
узлу . Присоединенный к 4-узлу 
2-узел (верхний левый рисунок) 
становится 3-узлом , 
соединенным с двумя 2-узлами 
(вверху справа), а 3-узел, 
соединенный с 4-узлом (внизу 
слева), становится 4-узлом, 
соединенным с двумя 2-узлами 
(внизу справа). 
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Каждый внешний узел располагается на одинаковом 
расстоянии от корня: выполняемые преобразования 
не оказывают никакого влияния на расстояние меж- 
ду любым узлом и корнем, за исключением случая, 
когда выполняется разделение корня (в этом случае 
расстояние между всеми узлами и корнем увеличива- 
ется на 1). Если все узлы являются 2-узлами, приве- 
денное утверждение также справедливо, поскольку 
дерево подобно полному бинарному дереву; если в 
дереве присутствуют 3- и 4-узлы, высота может быть 
только меньше. 

Лемма 13.7 Для вставок в N -узловых 2-3-4-деревьях в 
худшем случае требуется разделение менее 1§/Ѵ + 1 уз- 
лов, а в среднем, вероятно, потребуется менее одного 
разделения узла. 

В самом худшем случае все узлы на пути к точке 
вставке являются 4-узлами и они все будут разделе- 
ны. Но в дереве, образованном в результате случай- 
ных перестановок N элементов, маловероятен не 
только этот худший случай, но и в среднем, вероят- 
но, потребуется меньше операций разделения, по- 
скольку в деревьях 4-узлы встречаются не так часто. 
Например, в большом дереве на рис. 13.14 все 4- 
узлы кроме двух расположены на нижнем уровне. 
До сих пор специалистам не удавалось аналитически 
точно проанализировать производительность 2-3-4- 
деревьев, но из эмпирически полученных результа- 
тов становится очевидным, что для балансировки де- 
ревьев используется очень мало разделений. Худший 
случай определяется только соотношением 1§М и в 
практических ситуациях не приходится говорить 
даже о приближении к этому значению. 




РИСУНОК 13.13 ПОСТРОЕНИЕ 
2-3-4-ДЕРЕВА 


Приведенное описание достаточно для определения 
алгоритма поиска с использованием 2-3-4-деревьев, ко- 
торый гарантирует достаточно высокую производитель- 
ность для худшего случая. Однако, мы находимся лишь 
на половине пути к реализации. Хотя можно было бы 


На этой последовательности 
рисунков показан результат 
вставки элементов с ключами А 

8 Е К СНШСХв 

первоначсыьно пустое 2-3-4- 
дерево. Каждый 


создать алгоритмы, действительно выполняющие преоб- 
разования с различными типами данных, представляю- 
щими 2-, 3- и 4-узлы, для большинства встречающихся 


встречающийся по пути поиска 
4-узел разделяется , обеспечивая 
тем самым свободное место для 


нового элемента в нижнеи 
части дерева. 


задач это непосредственное представление не очень 
удобно в плане реализации. Как и в случае расширен- 
ных В$Т-деревьев, накладные расходы, связанные с манипулированием более слож- 
ными структурами узлов, могли бы сделать алгоритмы более медленными, чем стан- 
дартный поиск с использованием В$Т-деревьев. Главное назначение балансировки — - 
обеспечение средства против наихудшего случая, но мы предпочли бы, чтобы затра- 
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РИСУНОК 13.14 Это 2-3-4-дерево — результат 200 случайных вставок в первоначально пустое 

дерево. Все пути поиска в дереве содержат не более шести узлов. 

ты для этого были низкими, а также чтобы не приходилось идти на дополнительные 
затраты при каждом выполнении алгоритма. К счастью, как будет показано в разде- 
ле 13.4, существует простое представление 2-, 3- и 4-узлов, которое позволяет выпол- 
нять преобразования единообразно при небольших дополнительных затратах по срав- 
нению со стандартным поиском в бинарном дереве. 

Описанный алгоритм — всего лишь один из возможных способов поддержания ба- 
ланса в 2-3-4-деревьях поиска. Разработано несколько других методов, которые по- 
зволяют достичь таких же результатов. 

Например, можно выполнять балансировку снизу вверх. Вначале в дереве выпол- 
няется поиск с целью нахождения расположенного в нижней части дерева узла, к ко- 
торому должен принадлежать вставляемый элемент. Если этот узел является 2-узлом 
или 3-узлом, он преобразуется в 3-узел или 4-узел, как описывалось ранее. Если он 
— 4-узел, он делится, как и ранее (со вставкой нового элемента в один из результи- 
рующих 2-узлов в нижней части), и средний элемент вставляется в родительский узел, 
если тот является 2- или 3-узлом. Если родительский узел является 4-узлом, он делится 
на два (со вставкой среднего узла в соответствующий 2-узел), а средний элемент 
вставляется в его родительский узел, если тот является 2- или 3-узлом. Если узел пре- 
док также является 4-узлом, мы продолжаем такой подъем по дереву, разделяя 4-узлы 
до тех пор, пока на пути поиска не встретится 2-узел или 3-узел. 

Такой вид восходящей балансировки можно выполнять в деревьях, которые содер- 
жат только 2- или 3-узлы (и не имеют 4-узлов). Это подход ведет к большему коли- 
честву операций разделения узлов во время выполнения алгоритма, но его проще 
программировать, поскольку приходится учитывать меньше случаев. В рамках еще 
одного подхода уменьшение количества операций разделения узлов достигается за 
счет отыскания родственных узлов, не являющихся 4-узлами, когда есть готовность 
приступать к разделению 4-узла. 

Реализации всех этих методов требуют применения одной и той же рекурсивной 
схемы, как будет показано в разделе 13.14. В главе 16 рассматриваются также обоб- 
щения этих методов. Основное преимущество рассматриваемого нисходящего подхо- 
да по сравнению с другими методами заключается в том, что необходимая сбаланси- 
рованность может быть достигнута в результате одного нисходящего прохода по 
дереву. 

Упражнения 

> 13.39 Нарисуйте сбалансированное 2-3-4-дерево поиска, образованное в резуль- 
тате вставки элементов с ключами ЕА8V^^Т10Nв указанном порядке в 
первоначально пустое дерево с использованием метода нисходящей вставки. 
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О 13.40 Нарисуйте сбалансированное 2-3-4-дерево поиска, образованное в резуль- 
тате вставки элементов с ключами ЕА8V^^ТIОNв указанном порядке в 
первоначально пустое дерево с использованием метода восходящей вставки. 

о 13.41 Какова минимальная и максимальная возможная высота сбалансированных 
2-3-4-деревьев, содержащих N узлов? 

о 13.42 Какова минимальная и максимальная возможная высота сбалансированных 
деревьев бинарного поиска, содержащих N узлов? 

о 13.43 Нарисуйте все структурно различные сбалансированные 2-3-4-деревья би- 
нарного поиска, содержащие N ключей, при 2 < N < 12. 

• 13.44 Определите вероятность того, что каждое из деревьев, нарисованных в уп- 
ражнении 13.43, является результатом вставки N различных случайных элементов 
в первоначально пустое дерево. 

13.45 Создайте таблицу, в которой будет отображаться количество деревьев из уп- 
ражнения 13.43 для каждого значения N, которые являются изоморфными в том 
смысле, что они могут быть преобразованы одно в другое за счет обмена подде- 
ревьев в узлах. 

[> 13.46 Опишите алгоритмы поиска и вставки в сбалансированные 2-3-4-5-6-дере- 
вья поиска. 

> 13.47 Нарисуйте несбалансированное 2-3-4-дерево поиска, образованное в ре- 
зультате вставки элементов с ключами ЕА8V^^ТIОNв указанном поряд- 
ке в первоначально пустое дерево с использованием следующего метода. Если по- 
иск завершается в 2- или 3-узле, его следует преобразовать в 3- или 4-узел, как в 
сбалансированном алгоритме; если поиск завершается в 4-узле, соответствующую 
связь в этом 4-узле следует заменить новым 2-узлом. 

13.4 Красно-черные деревья, или КВ-деревья 

Описанный в предыдущем разделе алгоритм нисходящей вставки в 2-3-4-деревья 
прост для понимания, но его непосредственная реализация весьма громоздка в свя- 
зи со множеством различных случаев, которые могут возникать. Приходится поддер- 
живать три различных типа узлов, сравнивать ключи поиска с каждым из ключей в 
узлах, копировать связи и другую информацию из узлов одного типа в узлы другого 
типа, создавать и удалять узлы и т.д. В этом разделе мы исследуем простое абстрак- 
тное представление 2-3-4-деревьев, которое позволяет создавать естественную реа- 
лизацию алгоритмов таблиц символов с почти оптимальными гарантиями производи- 
тельности для худшего случая. 

Основная идея заключается в представлении 2-3-4-деревьев в виде стандартных 
ВЗТ-деревьев (содержащих только 2-узлы), но с добавлением к каждому узлу до- 
полнительного информационного разряда для кодирования 3-узлов и 4-узлов. Мы 
будем представлять связи двумя различными типам связей: красными ( гесі) связями (Я- 
связями), которые объединяют воедино небольшие бинарные деревья, образующие 3- 
узлы и 4-узлы, и черными (Ыаск) связями (В-связями), которые объединяют воедино 
2-3-4-дерево. В частности, как показано на рис. 13.15, 4-узлы представляются тремя 
2-узлами, соединенными К-связями, а 3-узлы представляются двумя 2-узлами, соеди- 
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ненными одной Я-связью. Я-связь в 3-узле может 
быть левой или правой, следовательно, существует 
два способа представления каждого 3-узла. 

В любом дереве каждый узел указывается одной 
связью, поэтому окрашивание связей эквивалентно ок- 
рашиванию узлов. Соответственно, мы используем по 
одному дополнительному разряду на каждый узел 
для хранения цвета связи, указывающей на этот 
узел. 2-3-4-деревья, представленные таким образом, 
называются красно-черными (или ЯВ-) деревьями би- 
нарного поиска. Ориентация каждого 3-узла опре- 
деляется динамикой алгоритма, которую мы опи- 
шем. Можно было бы выдвинуть правило, что все 
3-узлы наклонены одинаково, но делать это не 
имеет смысла. Пример ЯВ-дерева показан на рис. 
13.16. Если исключить Я-связи и свернуть соединя- 
емые ими узлы, в результате будет получено 2-3-4- 
дерево, показанное на рис. 13.10. 

ЯВ-деревья обладают двумя важными свойства- 
ми: (/) стандартный метод зеагсН для В5Т-деревьев 
работает безо всяких изменений; (іі) существует пря- 
мое соответствие между ЯВ-деревьями и 2-3-4-дере- 
вьями, поэтому алгоритм с использованием сбалан- 
сированного 2-3-4-дерева можно реализовать, 
сохранив соответствие. Таким образом, можно вос- 
пользоваться лучшим из обоих подходов: простой 
метод поиска, присущий стандартному В5Т-дереву, 
и простой метод вставки-балансировки, характер- 
ный для 2-3-4-дерева поиска. 

Метод поиска никогда не исследует поле, пред- 
ставляющее цвет узла, поэтому механизм баланси- 
ровки не увеличивает время, занимаемое основной 
процедурой поиска. Поскольку каждый ключ встав- 
ляется только один раз, но в типичном приложении 
его поиск может выполняться многократно, в ре- 
зультате общее время поиска сокращается (посколь- 
ку деревья сбалансированы) ценой сравнительно 
небольших дополнительных затрат (во время поис- 
ков никаких действий по балансировке не присут- 
ствует). Более того, дополнительные затраты, 
связанные со вставкой, невелики: действия по ба- 
лансировке приходится предпринимать только при 
встрече 4-узлов, а в дереве количество таких узлов 
невелико, поскольку они всегда разделяются. Внут- 
ренним циклом процедуры вставки является код, 




РИСУНОК 13.15 З-УЗЛЫ И 4-УЗЛЫ 
В КВ-ДЕРЕВЬЯХ 

Использование двух типов связей 
обеспечивает эффективный способ 
представления 3-узлов и 4-узлов в 
2-3-4-деревьях. Я-связи (жирные 
линии на схемах) используются для 
представления внутренних 
соединений в узлах , а В-связи 
(тонкие линии на схемах) — для 
представления связей 2-3-4-дерева. 
4-узел (вверху слева) представляется 
сбалансированным поддеревом , 
состоящим из трех 2-узлов , 
которые соединены Я-связями 
(вверху справа). Оба представления 
имеют три ключа и четыре 
В-связи. 3-узел (внизу слева) 
представляется одним 2-узлом, 
связанным с другим узлом ( слева или 
справа) единственной Я-связью 
(внизу справа). Оба представления 
имеют два ключа и три В-связи. 



РИСУНОК 13.16 КВ-ДЕРЕВО 

На этом рисунке изображено ЯВ- 
дерево, содержащее шючи А Б Я С 
НІИ О Е ХМ Р Ь. Ключ в таком 
дереве можно найти при помощи 
стандартного поиска в В 5Т- 
деревьях. В этом дереве любой 
путь от корня до внешнего узла 
содержит три В-связи. Если 
свернуть узлы, соединенные Я- 
связями, мы получим 2-3-4-дерево, 
показанное на рис. 13. 10. 
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выполняющий прохождение вниз по дереву (аналогичный операциям вставки или 
поиска и вставки в стандартных В$Т-деревьях), с добавлением одной дополнитель- 
ной проверки: если узел имеет два дочерних Я-узла, он является частью 4-узла. 

Столь небольшая перегрузка — основной фактор, определяющий эффективность 
ЯВ-деревьев бинарного поиска. 

Теперь давайте рассмотрим ЯВ-представление двух преобразований, выполнение 
которых может потребоваться при встрече 4-узла. При наличии 2-узла, который со- 
единен с 4-узлом, эту пару необходимо преобразовать в 3-узел, соединенный с дву- 
мя 2-узлами; при наличии 3-узла, соединенного с 4-узлом, пара должна быть преоб- 
разована в 4-узел, соединенный с двумя 2-узлами. Когда в нижнюю часть дерева 
добавляется новый узел, его можно представить в виде 4-узла, который должен быть 
разделен, причем его средний узел передается на один уровень вверх для вставки в 
нижний узел, где завершится поиск. Самой сущностью нисходящего процесса гаран- 
тируется, что этот узел должен быть либо 2-узлом, либо 3-узлом. Преобразование, 
требуемое при встрече 2-узла, соединенного с 4-узлом, выполняется без труда, и та- 
кое же преобразование работает применительно к 3-узлу, "правильно" соединенно- 
му с 4-узлом, как показано в двух первых примерах на рис. 13.17. 

Остаются еще две ситуации, которые могут возникать при наличии 3-узла, соеди- 
ненного с 4-узлом, как показано в последних двух примерах на рис. 13.17. (Факти- 
чески, существует четыре таких ситуации, поскольку 3-узлы другой ориентации мо- 
гут также создавать зеркальные отражения представлений.) В этих случаях простое 
разделение 4-узла приводит к образованию двух последовательных В-связей — т.е. 
результирующее дерево не представляет 2-3-4-дерево в соответствии с принятыми 

^ ^ ^ 

^ ^ ^ 



РИСУНОК 13.17 РАЗДЕЛЕНИЕ 4-УЗЛОВ В КВ-ДЕРЕВЕ 

В ЯВ-дереве операция разделения 4-узла, который не является дочерним 4-узла, реализуется 
изменение цветов узлов дерева, образующих 4-узел с последующим возможным выполнением одной или 
двух ротаций. Если родительский узел является 2-узлом (верхний рисунок) или 3-узлом с подходящей 
ориентацией (второй сверху рисунок), ротации не потребуются. Если 4-узел располагается на 
центральной связи 3-узла (нижний рисунок), требуется двойная ротация; в противном случае 
достаточно одиночной ротации (третий сверху рисунок). 
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соглашениями. Эта ситуация не так уж плоха, посколь- 
ку имеется три узла, соединенные К-связями: достаточ- 
но преобразовать дерево так, чтобы Я-связи указывали 
вниз из одного и того же узла. 

К счастью, уже использованные операции ротации — 
это именно то, что необходимо для достижения требуе- 
мого эффекта. Давайте начнем с более простого из двух 
оставшихся случаев: третьего из представленных на рис. 

13.17, когда 4-узел, соединенный с 3-узлом, разделяет- 
ся, оставляя две идущие подряд и одинаково ориентиро- 
ванные Я-связи. Эта ситуация не возникла бы, если бы 
3-узел был ориентирован иначе. Соответственно, мы 
изменяем структуру дерева для изменения ориентации 3- 
узла и тем самым сводим этот случай ко второму, когда 
простого разделения 4-узла оказывается достаточно. Из- 
менение структуры дерева для переориентации 3-узла 
заключается в выполнении единственной ротации с до- 
полнительным требованием изменения цвета двух узлов. 

И наконец, для обработки случая, когда 4-узел, со- 
единенный с 3-узлом, разделяется, оставляя две идущие 
подряд Я-связи, которые ориентированы по-разному, 
мы выполняем ротацию, чтобы свести этот случай к слу- 
чаю с одинаково ориентированными связями, который 
затем обрабатывается, как было описано выше. Это пре- 
образование сводится к выполнению тех же операций, 
что и при выполнении двойных ротаций влево-вправо и 
вправо-влево, которые использовались для расширенных 
ВЗТ-деревьев в разделе 13.2, хотя для правильной поддержки цветов потребуются 
незначительные дополнительные действия. Примеры операций вставки в ЯВ-деревья 
приведены на рис. 13.18 и 13.19. 

Программа 13.6 содержит реализацию операции іпзегі для ЯВ-деревьев, выполня- 
ющую преобразования, которые обобщены на рис. 13.17. Рекурсивная реализация 
позволяет изменять цвета 4-узлов на пути вниз по дереву (перед рекурсивными вы- 
зовами), а затем выполнять ротации на пути вверх по дереву (после рекурсивных 
вызовов). Эту программу было бы трудно понять без двух уровней абстракции, раз- 
работанных для ее реализации. Несложно убедиться, что рекурсивный подход реали- 
зует ротации, изображенные на рис. 13.17; затем можно убедиться, что программа 
реализует высокоуровневый алгоритм в 2-3-4-деревьях — разделяет 4-узлы на пути 
вниз по дереву, а затем вставляет новый элемент в 2- или 3-узел в месте завершения 
пути поиска в нижней части дерева. 

Программа 13.6 Вставка в КВ-деревья бинарного поиска 

Эта функция реализует вставку в 2-3-4-деревья за счет использования ВВ-представления. 
К типу побе добавляется разряд цвета гесі (и соответствующим образом расширяется его 
конструктор), причем 1 означает, что узел является красным, а 0 — черным. На пути вниз 



РИСУНОК 13.18 ВСТАВКА В 
КВ-ДЕРЕВО 

На этом рисунке показан 
результат (внизу) вставки 
записи с ключом I в пример 
ЯВ-дерева, показанный вверху. 
В этом случае процесс вставки 
состоит из разделения 4-узла 
С с изменением цвета (в 
центре), последующим 
добавлением нового 2-узла в 
нижней части и 
преобразованием узла, 
содержащего ключ Д в 3-узел . 
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по дереву (перед рекурсивным вызовом) выполняется про- 
верка на присутствие 4-узлов и их разделение с изменени- 
ем разрядов цвета во всех трех узлах. По достижении ниж- 
ней части дерева создается новый В-узел для вставляемого 
элемента и возвращается указатель на него. На пути вверх 
по дереву (после рекурсивного вызова) осуществляется 
проверка необходимости выполнения ротации. Если путь 
поиска содержит две В-связи с одинаковой ориентацией, 
выполняется единственная ротация от верхнего узла, затем 
разряды цвета изменяются с целью образования соответ- 
ствующего 4-узла. Если путь поиска содержит две В-связи 
с различными ориентациями, выполняется единственная 
ротация от нижнего узла, в результате которой случай сво- 
дится к предыдущему. 

ргіѵаѣе : 
іп*Ь гесЦІіпк х) 

{ (х == 0) геЪигп 0; геѣигп х->гесі; } 

ѵоісі КВіпзегІ: (1іпк& Ь, Іѣет х, іпѣ зѵ) 

{ 

іі: (Ь == 0) { Ь = пеѵг посіе(х); геЪигп; } 

іі: (гесі(Ь->1) && гесі(Ь-->г)) 

{ Ь->ге<1 = 1; Ь->1*->гесі = 0; Ь->г->гесі =0; } 

(х.кеу() < Ь->і1:ет.кеу () ) 

{ 

КВіпзегІ: (Ь->1 , х, 0); 

(гесі(Ь) && гесі(Ь->1) && зѵг) гойК(Ь) ; 
(ге<і(Ь->1) && гесі (Ь->1->1) ) 

{ гоЪК(Ь) ; Ь->гесі = 0; Ь->г->ге<і =1; } 



{ 

КВіпзегі: (Ь->г , х, 1) ; 

іі: (гесі(Ь) && гесі(Ь->г) && ! зѵг) гоЪЬ (Ь) ; 

іі: (гесІ(1і->г) && ге<і (Ь->г->г) ) 

{ гоЪЬ (Ь) ; Ь->ге<і = 0; Ь->1->гесі =1; } 

} 

} 

риЫіс: 

ѵоісі іпзегі: (ІЪет х) 

{ КВіпзегі: (Ьеасі, х, 0); Ъеа<і-->гесі = 0; } 



РИСУНОК 13.19 ВСТАВКА В КВ- 
ДЕРЕВО С ИСПОЛЬЗОВАНИЕМ 
РОТАЦИЙ 

На этом рисунке показан 
результат (внизу) вставки 
записи с ключом С в КВ -дерево, 
приведенное вверху. В этом 
случае процесс вставки состоит 
из разделения 4-узла с ключом I 
с изменением цвета (второй 
сверху рисунок), затем 
добавления нового узла в 
нижней части дерева (третий 
сверху рисунок), и, наконец , 
выполнения (с возвратом к 
каждому узлу на пути поиска 


после вызовов рекурсивных 

На рис. 13.20, который можно считать более подроб- ФУ**тй) ротации влево в узле 

п п См ротации вправо в узле К с 

ной версией рис. 13.13, показано, как программа 13.6 

г к г ѵ целью завершения процесса 

строит КВ-деревья, представляющие сбалансированные разделения 4-узла. 
2-3-4-деревья при вставке тестового набора ключей. На 

рис. 13.21 присутствует дерево, построенное на основе более объемного примера, чем 
тот, который был использован. Среднее количество узлов, посещенных во время по- 
иска случайного ключа в этом древе, равно всего лишь 5.81. Можете сравнить это 
значение со значением 7.00 для дерева, построенного из этих же ключей в главе 12, 
и с 5.74 — наименьшим возможным для случая идеально сбалансированного дерева. 
Ценой всего нескольких ротаций мы получаем дерево, сбалансированное гораздо 
лучше любого другого, состоящего из этих же ключей. Программа 13.6 — эффектив- 
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ный, сравнительно компактный алгоритм вставки с ис- 
пользованием структуры бинарного дерева, который га- 
рантирует логарифмическую зависимость для количества 
шагов для всех поисков и вставок. Это одна из немногих 
реализаций таблиц символов, обладающих подобным 
свойством, и ее использование оправдано в библиотечной 
реализации, когда свойства обрабатываемой последова- 
тельности ключей нельзя точно охарактеризовать. 

Лемма 13.8 Для поиска в КВ-дереве с N узлами требует- 
ся менее 2 1§УѴ + 2 сравнений. 

Только для разделений, которые в 2-3-4-дереве соот- 
ветствуют 3-узлу, соединенному с 4-узлом, требуется 
ротация в ЯВ-дереве; таким образом эта лемма — 
следствие леммы 13.2. Худший случай возникает тогда, 
когда путь к точке вставки состоит из чередующихся 3- 
узлов и 4-узлов. 

Более того, программа 13.6 устраняет небольшие на- 
кладные расходы, требуемые для балансировки, и созда- 
ваемые ею деревья почти оптимальны, поэтому она при- 
влекательна также в качестве быстрого метода поиска 
общего назначения. 

Лемма 13.9 Для поиска в КВ-дереве с N узлами, постро- 
енном из случайных ключей, в среднем используется около 
1.002 1§7Ѵ сравнений. 



Константа 1.002, установленная путем частичного ана- 
лиза и моделирования (см. раздел ссылок ), достаточно 
мала, чтобы можно было считать ЯВ-деревья опти- 
мальными для практического применения, но вопрос 
о том, действительно ли ЯВ-деревья являются асимп- 
тотически оптимальными, остается открытым. Можно 
ли считать константу равной 1? 


РИСУНОК 13.20 ПОСТРОЕНИЕ 
КВ-ДЕРЕВА 

Эта последовательность 
рисунков демонстрирует 
результат вставки записей с 
ключами А ВЕК С Н I N X в 
первоначально пустое КБ- 
дерево. 


Поскольку в рекурсивной реализации из программы 
13.6 определенные действия выполняются перед рекурсивными вызовами, а опреде- 
ленные — - после рекурсивных вызовов, ряд модификаций дерева выполняется при пе- 
ремещении по пути поиска вниз, а ряд — на обратном пути вверх. Следовательно, в 
ходе одного нисходящего прохождения балансировка не выполняется. Это обстоятель- 
ство мало влияет на большинство приложений, поскольку глубина рекурсии гаранти- 
ровано мала. Для некоторых приложений, связанных с несколькими независимыми 
процессами, обращающимися к одному и тому же дереву, может потребоваться не- 
рекурсивная реализация, которая в каждый заданный момент времени активно опе- 
рирует только постоянным количеством узлов (см. упражнение 13.66). 

Для приложения, которое хранит в дереве и другую информацию, операция рота- 
ции может оказаться дорогостоящей, возможно принуждая обновлять информацию во 
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РИСУНОК 13.21 БОЛЬШОЕ КВ-ДЕРЕВО БИНАРНОГО ПОИСКА 

Это КВ-дерево — результат вставки случайным образом упорядоченных ключей в первоначально 
пустое дерево. Для обнаружения всех промахов при поиске в этом дереве требуется от 6 до 12 
сравнений. 

всех узлах поддеревьев, затрагиваемых ротацией. Для таких приложений можно обес- 
печить, чтобы каждая вставка требовала не более одной ротации, используя КВ-де- 
ревья для реализации восходящих 2-3-4-деревьев поиска, которые описаны в конце 
раздела 13.3. Вставка в эти деревья сопряжена с разделением 4-узлов вдоль пути по- 
иска, которое требует изменений цвета, но не выполнения ротаций в КВ-представ- 
лении, за которыми следует одна одиночная или двойная ротация (один из случаев, 
показанных на рис. 13.17), когда первый 2-узел или 3-узел встречается вверх вдоль 
пути поиска (см. упражнение 13.59). 

Если в дереве необходимо поддерживать дублированные ключи, то, подобно тому 
как это делалось в расширенных В8Т-деревьях, следует разрешить элементам с клю- 
чами, равными ключу данного узла, размещаться по обе стороны от этого узла. В 
противном случае длинные строки дублированных ключей могут привести к серьез- 
ному дисбалансу. И снова, это наблюдение свидетельствует, что для отыскания всех 
элементов с данным ключом требуется специализированный код. 

Как упоминалось в конце раздела 13.3, КВ-представления 2-3-4-деревьев входят 
в число нескольких аналогичных стратегий, которые были предложены для реализа- 
ции сбалансированных бинарных деревьев {см. раздел ссылок). Как было показано, 
балансировка деревьев достигается операциями ротации: мы рассмотрели специфи- 
ческое представление деревьев, которое упрощает принятие решения о необходимо- 
сти выполнения ротации. Другие представления деревьев ведут к другим алгоритмам, 
часть из которых мы кратко рассмотрим в данном разделе. 

Старейшая и наиболее изученная структура данных для сбалансированных дере- 
вьев — сбалансированное по высоте , или АѴГ-, дерево , исследованное Ад ельсоном- Вель- 
ским (АбеГ$оп-ѴеГ$кіі) и Ландисом (Ьапсііз). Для этих деревьев характерно, что вы- 
соты двух поддеревьев каждого узла различаются максимум на 1. Если вставка 
приводит к тому, что высота одного из поддеревьев какого-либо узла увеличивается 
на 1, условие баланса может быть нарушено. Однако, одна одиночная или двойная 
ротация в любом случае вернет узел в сбалансированное состояние. Основанный на 
этом наблюдении алгоритм аналогичен методу восходящей балансировки 2-3-4-дере- 
вьев: для узла выполняется рекурсивный поиск, затем, после рекурсивного вызова, 
выполняется проверка разбалансировки и, при необходимости, одиночная или двой- 
ная ротация с целью корректирования баланса (см. упражнение 13.61). Для принятия 
решения о том, какие ротации нужно выполнять (если это необходимо), требуется 
знать, является ли высота каждого узла на 1 меньше, равна или на 1 больше высоты 
его родственного узла. Для прямого кодирования этой информации требуется по два 
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разряда на каждый узел, хотя, используя ЯВ-абстракцию, можно обойтись и без ис- 
пользования дополнительного объема памяти (см. упражнения 13.62 и 13.65). 

Поскольку 4-узлы не играют никакой специальной роли в алгоритме с использо- 
ванием 2-3-4-деревьев, сбалансированные деревья можно строить по существу так 
же, используя только 2-узлы и 3-узлы. Построенные таким образом деревья называют 

2- 3-деревьями. Такие деревья были исследованы Хопкрофтом (Норсгой) в 1970 г. 2- 

3- деревья не обладают достаточной гибкостью, чтобы можно было построить удобный 
алгоритм нисходящей вставки. Кроме того, ЯВ-структура может упростить реализа- 
цию,, но восходящие 2-3-деревья не обеспечивают особых преимуществ по сравнению 
с восходящими 2-3-4-деревьями, поскольку для поддержания баланса по-прежнему 
требуются одиночные и двойные ротации. Восходящие 2-3-4-деревья несколько лучше 
сбалансированы и обладают тем преимуществом, что для каждой вставки требуется 
максимум одна ротация. 

В главе 16 исследуется еще один важный тип сбалансированных деревьев — рас- 
ширение 2-3-4-деревьев, называемое В-деревьями. В-деревья допускают существова- 
ние до М ключей в одном узле для больших значений М и широко используются в 
приложениях поиска, работающих с очень большими файлами. 

Мы уже определили ЯВ-деревья их соответствием 2-3-4-деревьям. Интересно так- 
же сформулировать непосредственные структурные определения. 

Определение 13.3 КВ-дерево бинарного поиска — это дерево бинарного поиска , в ко- 
тором каждый узел помечен как красный (К) либо черный (В), с наложением допол- 
нительного ограничения , что никакие два красных узла не могут появляться друг за дру- 
гом в любом пути от внешней связи к корню. 

Определение 13.4 Сбалансированное КВ-дерево бинарного поиска — это ЯВ-дере- 
во бинарного поиска , в котором все пути от внешних связей к корню содержат одина- 
ковое количество черных узлов. 

А теперь давайте рассмотрим альтернативный подход к разработке алгоритма с 
использованием сбалансированного дерева, заключающийся в полном игнорировании 
абстракции 2-3-4-дерева и формулировании алгоритма вставки, который сохраняет 
определяющее свойство сбалансированных ЯВ-деревьев бинарного поиска за счет 
применения ротаций. Например, использование восходящего алгоритма соответствует 
присоединению нового узла в нижней части пути поиска с помощью Я-связи, затем 
продвижению вверх по пути поиска с выполнением ротаций или изменений цвета, 
как это делалось в случаях, представленных на рис. 13.17, с целью разбиения любой 
встретившейся пары последовательных Я-связей. Основные операции не отличают- 
ся от выполняемых в программе 13.6 и в ее восходящем аналоге, но при этом име- 
ются незначительные различия, поскольку 3-узлы могут быть ориентированы в лю- 
бом направлении, операции могут выполняться в ином порядке и различные решения 
в отношении различных ротаций могут приниматься с равным успехом. 

Давайте подведем итоги: используя ЯВ-деревья для реализации сбалансированных 
2-3-4-деревьев, можно разработать таблицу символов, в которой операция зеагсН для 
ключа в файле, состоящем, скажем, из 1 миллиона элементов, может быть выполнена 
путем сравнения этого ключа приблизительно с 20 другими ключами. В худшем слу- 
чае требуется не более 40 сравнений. Более того, с каждым сравнением связаны лишь 
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небольшие накладные расходы и поэтому гарантируется быстрое выполнение опера- 
ции зеагск даже в очень больших файлах. 

Упражнения 

> 13.48 Нарисуйте КВ-дерево бинарного поиска, образованное в результате встав- 
ки элементов с ключами ЕА8V^^ТIОNв указанном порядке в первона- 
чально пустое дерево с использованием метода нисходящей вставки. 

> 13.49 Нарисуйте КВ-дерево бинарного поиска, образованное в результате встав- 
ки элементов с ключами ЕА8V^^ТIОNв указанном порядке в первона- 
чально пустое дерево с использованием метода восходящей вставки. 

о 13.50 Нарисуйте КВ-дерево, образованное в результате вставки по порядку букв 
от А до К в первоначально пустое дерево, а затем опишите, что происходит в об- 
щем случае построения дерева путем вставки ключей в порядке возрастания. 

13.51 Приведите последовательность вставок, в результате которой будет создано 
КВ-дерево на рис. 13.16. 

13.52 Создайте два произвольных 32-узловых КВ-дерева. Нарисуйте их (вручную 
или с помощью программы). Сравните их с В$Т-деревьями (несбалансированны- 
ми), построенными из этих же ключей. 

13.53 Сколько различных КВ-деревьев соответствуют 2-3-4-дереву, содержащему 
і 3 -узлов? 

о 13.54 Нарисуйте все структурно различные КВ-деревья поиска, содержащие N 
ключей, при 2 < N < 12. 

• 13.55 Определите вероятность того, что каждое из деревьев в упражнении 13.43 яв- 
ляется результатом вставки N случайных различных элементов в первоначально 
пустое дерево. 

13.56 Создайте таблицу, в которой приведено количество деревьев для каждого 
значения N из упражнения 13.54, являющихся изоморфными в том смысле, что 
они могут быть преобразованы одно в другое путем взаимной замены поддере- 
вьев в узлах. 

•• 13.57 Покажите, что в худшем случае длина почти всех путей от корня к внешне- 
му узлу в КВ-дереве, состоящем из N узлов, равна 2 1§УѴ. 

13.58 Сколько ротаций требуется в худшем случае для вставки в КВ-дерево, состо- 
ящее из N узлов? 

о 13.59 Используя КВ-представление и рекурсивный подход, аналогичный програм- 
ме 13.6, реализуйте операции сопзігисі, зеагск и іпзегі для таблиц символов, в осно- 
ве которых лежат структуры данных в виде восходящих сбалансированных 2-3-4- 
деревьев. Совет : код может выглядеть аналогично программе 13.6, но должен 
выполнять операции в другом порядке. 

13.60 Используя КВ-представление и рекурсивный подход, аналогичный програм- 
ме 13.6, реализуйте операции сопзігисі , зеагск и іпзегі для таблиц символов, в осно- 
ве которых лежат структуры данных в виде восходящих сбалансированных 2-3-де- 
ревьев. 
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13.61 Используя рекурсивный подход, аналогичный программе 13.6, реализуйте 
операции сопзігисі, зеагсИ и ітегі для таблиц символов, в основе которых лежат 
структуры данных в виде сбалансированных по высоте (АѴЬ) деревьев. 

• 13.62 Измените реализацию, созданную в упражнении 13.61, чтобы использовать 
ЯВ-деревья (содержащие по 1 разряду на узел) для кодирования информации о ба- 
лансировке. 

• 13.63 Реализуйте сбалансированные 2-3-4-деревья, используя представление ЯВ- 
дерева, в котором 3-узлы всегда наклонены вправо. Примечание: это изменение 
позволяет исключить из внутреннего цикла операции іпзегі одну из проверок раз- 
рядов. 

• 13.64 Для сохранения сбалансированности 4-узлов программа 13.6 выполняет ро- 
тации. Разработайте использующую представление в виде ЯВ-дерева реализацию 
сбалансированных 2-3-4-деревьев, в которой 4-узлы могут быть представлены лю- 
быми тремя узлами, соединенными двумя Я-связями (полностью сбалансирован- 
ными или несбалансированными). 

о 13.65 Не прибегая к использованию дополнительного объема памяти для хране- 
ния разряда цвета, реализуйте операции сопзігисі, зеагсИ и іпзегі для ЯВ-деревьев, 
воспользовавшись следующим приемом. Чтобы окрасить узел в красный цвет, по- 
меняйте местами две его связи. Затем, чтобы проверить, является ли узел красным, 
проверьте, больше ли его левый дочерний узел, чем правый. Дабы обеспечить воз- 
можный обмен указателями, придется модифицировать функции сравнения; в ре- 
зультате использования такого приема сравнения разрядов заменяются сравнени- 
ями ключей, что, по всей вероятности, требует больших затрат, однако метод 
демонстрирует, что в случае необходимости можно избавиться от дополнительного 
разряда в узлах. 

• 13.66 Реализуете нерекурсивную функцию вставки в ЯВ-дерево бинарного поиска 
(см. программу 13.6), которая соответствует вставке в сбалансированное 2-3-4-де- 
рево в течение одного прохода. Совет: введите связи §§, § и р, которые указыва- 
ют, соответственно, на прадеда, деда и родителя текущего узла в дереве. Все эти 
связи могут йотребоваться для выполнения двойной ротации. 

13.67 Создайте программу, которая вычисляет процентную долю В-узлов в задан- 
ном ЯВ-дереве бинарного поиска. Протестируйте программу, вставив N случай- 
ных ключей в первоначально пустое дерево, при N = ІО 3 , ІО 4 , ІО 5 и ІО 6 . 

13.68 Создайте программу, которая вычисляет процент элементов, находящихся 
в 3-узлах и 4-узлах заданного 2-3-4-дерева поиска. Протестируйте программу, 
вставив N случайных ключей в первоначально пустое дерево, при N = ІО 3 , ІО 4 , ІО 5 
и ІО 6 . 

І> 13.69 Используя по одному разряду на узел для представления цвета, можно пред- 
ставлять 2-, 3- и 4-узлы. Сколько разрядов на узел потребовалось бы для представ- 
ления бинарным деревом 5-, 6- и 7-узлов? 

13.70 Эмпирически вычислите среднее значение и стандартное отклонение коли- 
чества сравнений, используемых для выявления попаданий и промахов при поис- 
ке в ЯВ-дереве, построенном в результате вставки N случайных узлов в первона- 
чально пустое дерево, при N = ІО 3 , ІО 4 , ІО 5 и ІО 6 . 
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13.71 Модифицируйте программу, созданную в упражнении 13.70, для вычисления 
количества ротаций и разделений узлов, используемых для построения деревьев. 
Проанализируйте полученные результаты. 

13.72 Воспользуйтесь программой-драйвером из упражнения 12.30 для сравнения 
свойства самоорганизации расширенных ВЗТ-деревьев с гарантиями, обеспечива- 
емыми КВ-деревьями бинарного поиска для худшего случая и со стандартными 
ВЗТ-деревьями для распределений запросов на поиск, определенных в упражне- 
ниях 12.31 и 12.32 (см. упражнение 13.29). 

• 13.73 Реализуйте функцию ьеагск для ЯВ-деревьев, которая выполняет ротации и 
изменяет цвета узлов в процессе спуска по дереву с целью обеспечения того, что 
узел в нижней части пути поиска не является 2-узлом. 

• 13.74 Воспользуйтесь решением упражнения 13.73 для реализации функции гетоѵе 
для ЯВ-деревьев. Найдите узел, который должен быть удален, продолжите поиск 
вплоть до нахождения 3-узла или 4-узла в нижней части пути и переместите узел- 
наследник из нижней части, чтобы заменить удаленный узел. 

13.5 Списки пропусков 

В этом разделе мы рассмотрим подход к разработке быстрых реализаций опера- 
ций с таблицами символов, которые на первый взгляд кажутся совершенно отличными 
от рассмотренных методов, основанных на использовании деревьев, но в действи- 
тельности очень тесно связанных с ними. Подход основан на рандомизованной 
структуре данных и почти наверняка обеспечивает практически оптимальную произ- 
водительность всех базовых операций для АТД таблиц символов. Лежащая в основе 
алгоритма структура данных, которая была разработана Пухом (Ри§Ь) в 1990 г. (см. 
раздел ссылок ), называется списком пропусков. В ней дополнительные связи в узлах связ- 
ного списка используются для пропуска больших частей списка во время поиска. 

На рис. 13.22 приведен простой пример, в котором третий узел в упорядоченном 
связном списке содержит дополнительную связь, которая позволяет пропустить три 
узла списка. Дополнительные связи можно использовать для ускорения операции 
зеагск. просмотр верхней части списка выполняется до тех пор, пока не будет найден 
ключ или узел с меньшим ключом, содержащий связь с узлом с большим ключом; за- 
тем связи в нижней части используются для проверки двух промежуточных узлов. Этот 
метод ускоряет выполнение операции зеагсН в три раза, поскольку в ходе успешно- 
го поиска к - го узла в списке исследуются лишь около к / 3 узлов. 
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РИСУНОК 13.22 ДВУХУРОВНЕВЫЙ СВЯЗНЫЙ СПИСОК 

Каждый третий узел в этом списке содержит вторую связь , поэтому можно выполнять пропуски в 
списке и почти в три раза ускорить прохождение по списку по сравнению с использованием только 
первых связей. Например, до двенадцатого узла в списке (Р), можно добраться из начала списка , 
следуя лишь по пяти связям: вторым связям к С, О, Г, IV, а затем по первой связи узла N к Р. 
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К этой конструкции можно применить итерацию и обеспечить вторую дополни- 
тельную связь, позволяющую быстрее просматривать узлы с дополнительными связя- 
ми, и т.д. Кроме того, конструкцию можно сделать более общей, пропуская с помо- 
щью каждой связи различное количество узлов. 

Определение 13.5 Список пропусков (зкір ІШ — это связный список , в котором каж- 
дый узел содержит различное количество связей , причем і-тые связи в узлах реализуют 
односвязные списки , пропускающие узлы , содержащие менее чем і связей. 

На рис. 13.23 показан этот же список пропусков и приведен пример поиска и 
вставки нового узла. Для выполнения поиска можно выполнить просмотр в верхнем 
списке, пока не будет найден ключ поиска или узел с меньшим ключом, содержащий 
связь с узлом с большим ключом. Затем мы переходим ко второму сверху списку и 
повторяем процедуру, продолжая этот процесс, пока не будет найден ключ поиска 
или пока в нижнем уровне не будет обнаружен промах при поиске. Для вставки мы 
выполняем поиск, связываясь с новым узлом при переходе с уровня к на уровень 
к — 1, если новый узел содержит, по меньшей мере, к дополнительных связей. 

Внутреннее представление узлов предельно простое. Единственная связь в одно- 
связном списке заменяется массивом связей и целочисленной переменной, содержа- 
щей количество связей в узле. Управление памятью — вероятно, наиболее сложный 
аспект использования списков пропусков. Объявления типов и код для выделения па- 
мяти под новые узлы будут вскоре исследованы при рассмотрении вставки. Пока же 
достаточно отметить, что доступ к узлу, который следует за узлом 1 на (к + 1-м) уров- 
не списка пропусков, можно получить так: 1->пех1[к]. Рекурсивная реализация в про- 
грамме 13.7 демонстрирует, что поиск в списках пропусков не только является весь- 




РИСУНОК 13.23 ПОИСК И ВСТАВКА В СПИСКЕ ПРОПУСКОВ 

Добавляя дополнительные уровни к структуре , показанной на рис. 13.22 \ и позволяя связям 
пропускать различное количество узлов , мы получаем пример обобщенного списка пропусков. Для 
поиска ключа в этом списке процесс начинается с самого верхнего уровня с переходом вниз при 
каждой встрече ключа, который не меньше ключа поиска. В данном случае (см. верхний рисунок) мы 
находим ключ Ь, начав с уровня 3 , следуя вдоль первой связи, затем спускаясь к О (считая нулевую 
связь связью со служебным узлом), затем следуя к /, спускаясь к уровню 2, поскольку 5 больше чем Ь, 
затем спускаясь к уровню 1, поскольку М больше Ь. Для вставки узла Ь с тремя связями мы 
связываем его с тремя списками именно там, где во время поиска были найдены связи с большими 


ключами. 
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ма понятным обобщением поиска в односвязных списках, но и подобен бинарному 
поиску или поиску в В$Т-деревьях. Вначале проверяется, содержит ли текущий узел 
ключ поиска. Затем, если это не так, ключ в текущем узле сравнивается с ключом 
поиска. Если он больше, выполняется один рекурсивный вызов, а если меньше — 
другой. 

Программа 13.7 Поиск в списках пропусков 

Для к равного 0 этот код эквивалентен программе 12.6, выполняющей поиск в од- 
носвязных списках. Для общего случая к мы переходим к следующему узлу на уров- 
не к списка, если его ключ меньше ключа поиска, и вниз к уровню к-1, если его 
ключ меньше. 

ргіѵаЬе : 

ІЬет зеагсЬК (Ііпк Ь, Кеу ѵ, іпЬ к) 

{ ІЬ (Ь «* 0) геЬигп пиШЬет; 

ІЬ (ѵ == Ь->іЬега.кеу () ) геЬигп Ь->іЬет; 

Ііпк х = Ь->пехЬ[к] ; 

ІЬ ( (х == 0) || (ѵ < х->іЬет.кеу () ) ) 

{ 

іЬ (к == 0) ге-Ьигп пиШЬет; 
геЬигп зеагсЬК (Ь, ѵ, к-1) ; 

> 

геЬигп зеагсЬК (х, ѵ, к) ; 

> 

риЫіс : 

ІЬет зеагсЬ(Кеу ѵ) 

{ геЬигп зеагсЬК (Ьеай, ѵ, ІдИ) ; } 


Первой задачей, с которой мы сталкиваемся при необходимости вставки нового 
узла в список пропусков, является определение количества связей, которые должен 
содержать узел. Все узлы содержат, по меньшей мере, одну связь; следуя интуитив- 
ному представлению, отображенному на рис. 13.22, на втором уровне можно пропус- 
кать сразу по / узлов, если один из каждых і узлов содержит, по меньшей мере, две 
связи; применяя итеративный подход, мы приходим к заключению, что один из каж- 
дых С узлов должен содержать по меньшей мере у н- 1 связей. 

Для создания узлов, обладающих таким свойством, мы выполняем рандомизацию, 
используя функцию, которая возвращает у + 1 с вероятностью \/С. Имея у, мы созда- 
ем новый узел с у связями и вставляем его в список пропусков, используя ту же ре- 
курсивную схему, которую использовали для выполнения операции зеагсН , как пока- 
зано на рис. 13.23. После достижения уровня у мы связываем новый узел при каждом 
спуске на следующий уровень. К этому моменту уже установлено, что элемент в те- 
кущем узле меньше ключа поиска и связан (на уровне у) с узлом, который не меньше 
ключа поиска. 


для инициализации списка пропусков мы строим заглавный узел с максимальным 
количеством уровней, которые будут разрешены в списке, и нулевыми указателями 
на всех уровнях. Программы 13.8 и 13.9 реализуют инициализацию и вставку для 
списков пропусков. 
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Программа 13.8 Структуры данных и конструктор списка пропусков 

Узлы в списках пропусков содержат массив связей, поэтому конструктор для посіе 
должен распределить массив и установить все связи в 0. Константа ІдЫтах — мак- 
симальное количество уровней, которые разрешаются в списке: ее значение может 
быть установлено равным пяти для крошечных списков или 30 — для огромных. Пе- 
ременная N. как обычно, хранит количество элементов в списке, а ІдЫ — количе- 
ство уровней. Пустой список является заглавным узлом с ІдЫтах связей, которые 
все установлены в 0, при нулевых N и ІдЫ. 

ргіѵаѣе : 
зЬгисЬ посіе 

{ Нет Пет; посіе **пехѣ; іпѣ 82 ; 
посіе (Нет х , іпЪ к) 

{ Нет = х; 82 = к; пехѣ = пен посіе* [к] ; 

^ог (іпЪ і = 0; і < к; і++) пехЪ[і] =0; } 

> ; 

Ьуресіе^ посіе *1іпк; 

Ііпк Ьеасі; 

Нет пиІІИет; 
іпЪ ІдЫ; 
риЫіс: 

8Т (іпЪ) 

{ Ьеасі = пен посіе (пиІІИет , ІдЫтах); ІдЫ = 0; } 


Программа 13.9 Вставка в список пропусков 

Мы генерируем новый у-связный узел с вероятностью 1/2 У , затем перемещаемся 
вдоль пути поиска точно так же, как б программе 13.7, но связываем новый узел 
при переходе на каждый из расположенных ниже / уровней. 

ргіѵаЬе : 
іпѣ гапсіХ() 

{ іпѣ і , 3 , Ь = гапсі ( ) ; 

±ог (і = 1, з = 2; і< ІдЫтах; і++, ^ += 3) 

Н (Ь > КАЫО__МАХ/ з ) Ьгеак ; 

Н (і > ІдЫ) ІдЫ = і; 
ге іигп і ; 

> 

ѵоісі іпзегЪК(1іпк Ь, Ііпк х, іпѣ к) 

{ Кеу ѵ = х->Иет. кеу () ; Ііпк ѣк = ѣ-^пехѣЕк] ; 

Н ( (“Ьк == 0) || (ѵ < Ък->Нет. кеу () ) ) 

{ 

±± (к < Х->82) 

{ х->пехѣ[к] = Ьк; ѣ->пехѣ[к] = х; } 

±± (к = 0) гвіит ; 
іпзегЪК(ѣ, х, к-1) ; геѣигп; 

> 

іпзегЬК(і:к, х, к) ; 

} 

риЫіс: 

ѵоісі іпзегЪ(Пет ѵ) 

{ іпзегѣК (Ьеасі, пен посіе (ѵ, гапсіХО), ІдЫ); } 


На рис. 13.24 демонстрируется построение списка пропусков для тестового набо- 
ра ключей, вставляемых в случайном порядке; на рис. 13.25 приведен более объемный 
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пример, а на рис. 13.26 показано конструирование спис- 
ка пропусков для тех же ключей, которые показаны на 
рис. 13.24, но вставленных в порядке возрастания. Подоб- 
но рандомизованным В$Т-деревьям, стохастические 
свойства списков пропусков не зависят от порядка встав- 
ки ключей. 

Лемма 13 Л 0 Для поиска и вставки в рандомизованный 
список пропусков с параметром і в среднем требуется око- 
ло (і 1о§,УѴ )/2 = (// (2 1§ О) сравнений. 

Мы ожидаем, что список пропусков должен иметь 
около 1о§,УѴ уровней, поскольку больше наи- 

меньшего значения у, для которого / у = N. На каждом 
уровне мы ожидаем, что на предыдущем уровне было 
пропущено около / узлов, а перед переходом на сле- 
дующий уровень придется пройти приблизительно по- 
ловину из них. Как видно из примера на рис. 13.25, 
количество уровней мало, но точное аналитическое 
обоснование этого не столь элементарно (см. раздел 
ссылок). 

Лемма 13 Л 1 Списки пропусков имеют в среднем 
(//(/ — 1))^Ѵ связей. 

На нижнем уровне имеется N связей, N/1 связей — на 
первом уровне, около N / / 2 связей — на втором 
уровне и т.д., при общем количестве связей в списке 
равном примерно 

N(1 + 1Д+ 1 /і 2 + ІА 3 ...) = N /( 1 - ІА) 


















Выбор подходящего значения / немедленно приводит 
к необходимости отыскания компромисса между време- 
нем выполнения и занимаемым объемом памяти. При і = 

2 в списках пропусков требуется в среднем около 1§7Ѵ 
сравнений и 2N связей — этот уровень производительно- 
сти сравним с лучшей производительностью при исполь- 
зовании В5Т-деревьев. Для больших значений / время 
поиска и вставки удлиняется, но дополнительный объем 
памяти, требуемый для связей, уменьшается. Продиффе- 
ренцировав выражение из леммы 13.10, мы находим, что выбор значения 1 — е ми- 


РИСУНОК 13.24 ПОСТРОЕНИЕ 
СПИСКА ПРОПУСКОВ 

Эта последовательность 
рисунков показывает 
результат вставки элементов 
с ключами А 5 Е К С Н I N С 
в первоначально пустой 
список пропусков. Узлы 
содержат у связей с 
вероятностью 1/2 У . 






штт 


РИСУНОК 13.25 БОЛЬШОЙ СПИСОК ПРОПУСКОВ 

Этот список пропусков — результат вставки в случайном порядке 50 ключей в первоначально пустой 
список. Доступ к каждому из ключей можно получить , следуя вдоль не более чем 7 связей. 
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нимизирует ожидаемое количество сравнений, требуемое 
для выполнения поиска в списке пропусков. 

В следующей таблице приведены значения коэффициен- 
та УѴІ^УѴв выражении, определяющем количество сравне- 
ний, необходимых для конструирования таблицы из N эле- 
ментов: 



г 


2 


3 


4 


8 


16 




1.00 


// 18 / 2.00 


1.44 

1.88 


1.58 2.00 

1.89 2.00 


3.00 4.00 

2.67 4.00 


Если для рекурсивного выполнения сравнений, следова- 
ния связям и перемещения вниз требуются затраты, кото- 
рые существенно отличаются от приведенных значений, 
можно выполнить более точные расчеты (см. упражнение 
13.83). 

Поскольку время выполнения поиска определяется лога- 
рифмической зависимостью, перерасход памяти можно 
уменьшить до объема, не слишком превышающего требуе- 
мый для односвязных списков (если объем памяти ограни- 
чен), увеличив значение /. Точная оценка времени выпол- 
нения зависит от распределения относительных затрат на 
следование связям в списках и на переход вниз на следую- 
щий уровень. Мы вернемся к этому компромиссу между 
временем и объемом памяти в главе 16 при рассмотрении 
проблемы индексирования очень больших файлов. 

Реализация других функций таблиц символов с помощью 
списков пропусков не представляет сложности. Например, в 
программе 13.10 приведена реализация функции гетоѵе , в 
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которой применяется та же рекурсивная схема, которая ис- 
пользовалась для функции іпзегг в программе 13.9. Для вы- 
полнения удаления мы разрываем связь узла со списком на 
каждом уровне (где он связывался для функции ітегі). За- 
тем мы освобождаем узел после разрыва его связи с нижней 
частью списка (в отличие от его создания перед пересечени- 
ем списка для вставки). Для реализации операции іоіп спис- 
ки объединяются (см. упражнение 13.78); для реализации 

операции зеіесі к каждому узлу добавляется поле, содержащее количество узлов, про- 
пущенных его связью самого высокого уровня (см. упражнение 13.77). 


РИСУНОК 13.26 
ПОСТРОЕНИЕ СПИСКА 
ПРОПУСКОВ, 
СОДЕРЖАЩЕГО 
УПОРЯДОЧЕННЫЕ КЛЮЧИ 

Эта последовательность 
рисунков показывает 
результат вставки 
элементов с ключами АСЕ 
С Н I N К 5 в 
первоначально пустой 
список пропусков. 
Стохастические свойства 
списка не зависят от 
порядка вставки ключей. 


Программа 13.10 Удаление в списках пропусков 

Для удаления узла с заданным ключом из списка пропусков мы разрываем его связь 
на каждом уровне, где находим связь к нему, а затем удаляем его по достижении 
нижнего уровня. 
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ргіѵаЪе : 

ѵоі<і гетоѵеК (Ііпк Ь, Кеу ѵ, іпі к) 

{ Ііпк х = 1->пех-Ь [к] ; 

( ! (х->і!ет. кеу () < ѵ) ) 

{ 

(ѵ == х->іі:ет. кеу () ) 

{ Ъ->пехі:[к] = х->пехі[к] ; } 

(к == 0) { сіеІеЪе х; ге^игп; } 

гетоѵеК (Ъ, ѵ, к-1) ; геіигп; 

} 

гетоѵеК (Ъ->пехі [к] , ѵ, к) ; 

} 

риЫіс : 

ѵоісі гетоѵе ( I Ъет х ) 

{ гетоѵеК (Ье а сі, х.кеу() , ІдЛ) ; } 


Хотя списки пропусков легко обобщить в качестве систематического способа бы- 
строго перемещения по связному списку, важно понимать, что лежащая в основе 
структура данных — всего лишь альтернативное представление сбалансированного 
дерева. Например, на рис. 13.27 приведено представление сбалансированного 2-3-4- 
дерева из рис. 13.10 в виде списка пропусков. Алгоритмы для сбалансированного 2- 
3-4-дерева из раздела 13.3, можно реализовать, используя абстракцию списка пропус- 
ков, а не абстракцию ЯВ-дерева, описанную в разделе 13.4. Результирующий код 
несколько сложнее кода рассмотренных представлений (см. упражнение 13.80). В гла- 
ве 16 мы еще вернемся к этой взаимосвязи между списками пропусков и сбаланси- 
рованными деревьями. 

Идеальный список пропусков, показанный на рис. 13.22 — жесткая структура, ко- 
торую трудно поддерживать при вставке нового узла, как это имело место и в случае 
упорядоченного массива для реализации бинарного поиска, поскольку вставка сопря- 
жена с изменением всех связей во всех узлах, следующих за вставленным. Один из 
способов сделать структуру более гибкой заключается в построении списков, в кото- 
рых каждая связь пропускает одну, две или три связи на расположенном ниже уров- 
не: эта организация соответствует 2-3-4-деревьям (см. рис. 13.27). Рандомизованный 
алгоритм, рассмотренный в этом разделе — еще один эффективный способ уменьшения 
жесткости структуры; в главе 16 будут рассматриваться и другие альтернативы. 



РИСУНОК 13.27 ПРЕДСТАВЛЕНИЕ 2-3-4-ДЕРЕВА В ВИДЕ СПИСКА ПРОПУСКОВ 

Этот список пропусков — представление 2-3-4-дерева, показанного на рис. 13. 10. В общем случае 
списки пропусков соответствуют сбалансированным многопозиционным деревьям с одной или более 
связью на узел (допускаются 1-узлы, не имеющие ключей и имеющие / связь). Для построения списка 
пропусков, соответствующего дереву, мы присваиваем каждому узлу количество связей, равное его 
высоте в дереве, а затем связываем узлы по горизонтали. Для построения дерева, соответствующего 
списку пропусков, мы группируем пропущенные узлы и рекурсивно связываем их с узлами на следующем 
уровне. 
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Упражнения 

13.75 Нарисуйте список пропусков, образованный в результате вставки элементов 
с ключами ЕА8Ѵ(211ТІС^в указанном порядке в первоначально пустой спи- 
сок, если считать, что гапЛХ возвращает последовательность значений 1,3, 1, 1, 2, 
2, 1, 4, 1 и 1. 

> 13.76 Нарисуйте список пропусков, образованный в результате вставки элементов 
с ключами ЕАІ1ЧО(28ТІІѴв указанном порядке в первоначально пустой спи- 
сок, если считать, что функция гаѵиіХ возвращает такие же значения, как и в уп- 
ражнении 13.75. 

13.77 Реализуйте операцию зеіесі для таблицы символов на базе списка пропусков. 
• 13.78 Реализуйте операцию ]оіп для таблицы символов на базе списка пропусков. 

> 13.79 Модифицируйте реализации операций зеагсИ и іпзегі , приведенные в про- 
граммах 13.7 и 13.9, чтобы вместо нулевых они создавали списки с сигнальными 
узлами. 

о 13.80 Задействуйте списки пропусков при реализации операций сопзігисі, зеагсИ и 
іюеп для таблиц символов, использующих абстракцию сбалансированного 2-3-4-де- 
рева. 

о 13.81 Сколько случайных чисел требуется в среднем для построения списка про- 
пусков с параметром /, с использованием функции гаш1Х() из программы 13.9? 

о 13.82 Для і = 2 измените программу 13.9 так, чтобы исключить цикл Гог из функ- 
ции гансІХ. Совет: последние у разрядов в бинарном представлении числа і прини- 
мают значение любого отдельного разряда у с вероятностью 1/2 У . 

13.83 Выберите значение г, которое минимизирует затраты на поиск для случая, 
когда затраты на следование по связи в а раз превышают затраты на выполнение 
сравнения, а затраты на выполнение перехода на один уровень рекурсии вниз в 
Р раз превышают затраты на выполнение сравнения. 

о 13.84 Разработайте реализацию списка пропусков, в которой узлы содержат сами 
указатели, а не указатель на массив указателей, который использовался в про- 
граммах 13.7 — 13.10. Совет: поместите массив в конец узла. 

13.6 Характеристики производительности 

Как для конкретного приложения произвести выбор между рандомизованными 
В5Т-деревьями, расширенными В8Т-деревьями, ЯВ-деревьями бинарного поиска и 
списками пропусков? Дол сих пор внимание было сосредоточено на различной при- 
роде гарантий производительности, обеспечиваемых этими алгоритмами. Время и 
занимаемый объем памяти всегда являются главным определяющим фактором, но 
необходимо учитывать также и ряд других факторов. В этом разделе мы кратко рас- 
смотрим вопросы реализации, эмпирические исследования, оценку времени выпол- 
нения и требования к объему памяти. 
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Все алгоритмы, основанные на использовании деревьев, зависят от ротаций; ре- 
ализация ротаций вдоль пути поиска — важная составляющая большинства алгорит- 
мов для сбалансированных деревьев. Мы использовали рекурсивные реализации, ко- 
торые неявным образом сохраняют указатели на узлы в пути поиска в локальных 
переменных в стеке рекурсии. Но каждый из алгоритмов может быть реализован и 
не рекурсивно, оперируя постоянным количеством узлов и выполняя постоянное 
количество операций связывания для одного узла в процессе нисходящего прохода по 
дереву. 

Из трех основанных на деревьях алгоритмов проще всего реализовать рандоми- 
зованные В8Т-деревья. Главные требования — надежность генератора случайных 
чисел и избежание слишком больших затрат времени на генерирование случайных 
разрядов. Расширенные деревья несколько более сложны, но являются простым рас- 
ширением стандартного алгоритма вставки в корень. ЯВ-деревья бинарного поиска 
требуют еще большего объема кода для проверки и манипулирования разрядами цве- 
та. Одно из преимуществ ЯВ-деревьев по сравнению двумя другими алгоритмами — 
возможность использования разрядов цвета для проверки логики при отладке и для 
обеспечения быстрого поиска в любой момент времени в течение времени жизни де- 
рева. Исследуя расширенное В5Т-дерево, невозможно выяснить, все ли необходимые 
преобразования выполняет создающий его код; программная ошибка может приво- 
дить (только!) к проблемам, связанным с производительностью. Аналогично, ошиб- 
ка в генераторе случайных чисел, используемом для рандомизованных В$Т-деревь- 
ев или списков пропусков, может привести к незамеченным в противном случае 
проблемам производительности. 

Списки пропусков легко реализовать и они особенно привлекательны, если тре- 
буется поддерживать полный набор операций для таблиц символов, поскольку все 
операции $еагск, ітеп, гетоѵе, ]оіп, зеіесі и $оП имеют естественные реализации, кото- 
рые легко сформулировать. Внутренний цикл для выполнения поиска в списках про- 
пусков длиннее, чем в деревьях (для него требуется дополнительный индекс в мас- 
сиве указателей или дополнительный рекурсивный вызов для перемещения на 
нижний уровень), поэтому время поиска и вставки удлиняется. Кроме того, списки 
пропусков ставят программиста в зависимость от генератора случайных чисел, по- 
скольку отладка программы, поведение которой носит случайный характер, — весьма 
сложная задача, и некоторые программисты особенно не любят работать с узлами, 
содержащими случайное количество связей. 

В табл. 13.1 приведены экспериментальные данные по производительности четы- 
рех рассмотренных в этой главе методов, а также реализаций элементарных В$Т-де- 
ревьев, описанных в главе 12, для ключей, которые являются случайными 32-разряд- 
ными целыми числами. Приведенные в этой таблице данные подтверждают 
аналитические результаты, полученные в разделах 13.2, 13.4 и 13.5. КВ-деревья рабо- 
тают со случайными ключами гораздо быстрее других алгоритмов. Пути в них на 35 
процентов короче, чем в рандомизованных или расширенных В$К-деревьях, в во 
внутреннем цикле приходится выполнять меньший объем работы. Рандомизованные 
деревья и списки пропусков требуют генерации, по меньшей мере, одного случайного 
числа для каждой вставки, а расширенные В5Т-деревья сопряжены с ротацией в каж- 
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дом узле во время выполнения вставки и поиска. И наоборот, накладные расходы при 
использовании ЯВ-деревьев бинарного поиска заключаются в том, что для каждой 
вставки приходится проверять значение 2 разрядов в каждом узле, а иногда прихо- 
дится выполнять и ротацию. При неравномерном доступе расширенные ВЗТ-деревья 
могут обеспечивать более короткие пути, но эта экономия, скорее всего, будет сво- 
дится на нет тем, что и для поиска, и для вставки требуются ротации в каждом узле 
во внутреннем цикле, за исключением, быть может, экстремальных случаев. 

Таблица 13.1 Результаты экспериментального изучения реализаций 
сбалансированных деревьев 

Эти сравнительные значения времени построения и поиска в ВЗТ-деревьях, обра- 
зованных случайными последовательностями N 32-разрядных чисел, при различных 
значениях Л/, показывают, что все методы обеспечивают хорошую производитель- 
ность даже для очень больших таблиц, но ВВ-деревья работают значительно быст- 
рее других методов. Во всех методах используется стандартный поиск в ВЗТ-дере- 
ве, за исключением расширенных В5Т-деревьев, где при поиске выполняется 
расширение с целью перемещения часто посещаемых узлов ближе к вершине, и 
списков пропусков, в которых используется, по сути дела, этот же алгоритм, но по 
отношению к другой структуре данных. 


конструирование промахи при поиске 
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2 

4 

6 

3 

1 

4 

1 

1 

1 
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1 

3 
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7 

14 

8 

5 

10 

3 

3 

3 

3 

2 

7 
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11 

23 

43 

24 
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28 

10 

9 

9 

9 

7 

18 
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27 

51 
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50 

32 

57 

19 

19 

26 

21 

16 

43 

50000 

63 

114 

220 
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74 

133 

48 

49 

60 

46 

36 

98 

100000 
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310 
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106 

132 

112 

84 

229 

200000 

347 

621 

996 

636 

411 
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235 

234 

294 

247 

193 

523 


Обозначения: 

В Стандартное В5Т-дерево (программа 12.8) 

Т ВЗТ-дерево, построенное при помощи вставок в корень (программа 12.13) 

В Рандомизованное В5Т-дерево (программа 13.2) 

5 Расширенное ВЗТ-дерево (упражнение 13.33 и программа 13.5) 

С ВВ-дерево бинарного поиска (программа 13.6) 

І_ Список пропусков (программы 13.7 и 13.9) 

Расширенные ВЗТ-деревья не требуют использования дополнительного объема па- 
мяти под информацию о балансировке; ЯВ-деревья бинарного поиска требуют 1 до- 
полнительного разряда; рандомизованные ВЗТ-деревья требуют наличия поля счет- 
чика. Для многих приложений поле счетчика поддерживается по ряду других причин, 
поэтому оно может быть и не сопряжено с дополнительными затратами для рандо- 
мизованных ВЗТ-деревьев. Действительно, добавление этого поля может потребоваться 
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при использовании расширенных ВЗТ-деревьев, КВ-деревьев бинарного поиска или 
списков пропусков. В случае необходимости, КВ-деревья бинарного поиска можно 
сделать столь же эффективными в плане используемого объема памяти, как и расши- 
ренные ВЗТ-деревья, исключив разряд цвета (см. упражнение 13.65). В современных 
приложениях объем памяти — не столь критичный фактор, каким он был когда-то, 
однако истинный профессионал все же должен избегать напрасных затрат. Напри- 
мер, необходимо знать, что некоторые системы могут использовать все 32-разрядное 
слово для небольшого поля счетчика или 1 -разрядного поля цвета в узле, в то время 
как другие системы могут упаковывать поля в памяти так, что их распаковка требу- 
ет значительного дополнительного времени. Если объем памяти ограничен, списки 
пропусков с большим параметром ( могут уменьшить объем памяти, требуемый для 
связей, почти в два раза ценой более медленного (но все же определяемого логариф- 
мической зависимостью) поиска. В некоторых случаях основанные на деревьях ме- 
тоды могут быть также реализованы с использованием по одной связи на узел (см. 
упражнение 12.68). 

Подводя итоги, можно сказать, что все рассмотренные в этой главе методы обес- 
печат высокую производительность для типовых приложений, при этом каждый ме- 
тод обладает собственными достоинствами для тех, кто заинтересован в разработке 
высокопроизводительных реализаций таблиц символов. Расширенные ВЗТ-деревья 
обеспечат высокую производительность как метод самоорганизующегося поиска, осо- 
бенно, когда частое обращении к небольшим наборам ключей является типичным 
случаем; рандомизованные ВЗТ-деревья, вероятно, будут работать быстрее и их про- 
ще реализовать для таблиц символов, которые должны обладать полным набором 
функций. Списки пропусков просты для понимания и могут обеспечить логарифми- 
ческую зависимость времени поиска при меньших затратах памяти, а КВ-деревья 
бинарного поиска привлекательны для библиотечных реализаций таблиц символов, 
поскольку они обеспечивают гарантированные предельные характеристики произво- 
дительности для худшего случая и являются наиболее быстрыми алгоритмами поиска 
и вставки случайных данных. 

Кроме специфичных использований в приложениях, это множество решений за- 
дачи разработки эффективных реализаций АТД таблиц символов важно также и по- 
тому, что оно иллюстрирует фундаментальные подходы к разработке алгоритмов, 
которые можно задействовать и при поиске решения других задач. При постоянной 
потребности в простых оптимальных алгоритмах, мы часто сталкиваемся с почти оп- 
тимальными алгоритмами, подобными рассмотренным в этой главе. Более того, как 
можно было заметить в случае с сортировкой, алгоритмы, основанные на сравнении 
— лишь верхушка айсберга. Переходя к абстракциям более низкого уровня, где мож- 
но обрабатывать части ключей, можно разрабатывать реализации, которые работают 
еще быстрее исследованных в этой главе, что и будет показано в главах 14 и 15. 
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Упражнения 

13.85 Разработайте реализацию таблицы символов, использующую рандомизован- 
ные ВЗТ-деревья, которая содержит деструктор, конструктор копирования и пе- 
регруженную операцию присваивания и поддерживает операции сопзігисі, соипі, 
зеагсН, іпзегі, гетоѵе, ріп, зеіесі и зогі для АТД таблиц символов с дескрипторами 
клиентских элементов (см. упражнения 12.6 и 12.7). 

13.86 Разработайте реализацию таблицы символов, использующую списки пропус- 
ков, которая содержит деструктор, конструктор копирования и перегруженную 
операцию присваивания и поддерживает операции сопзігисі , соипі , зеагсН , іпзегі, 
гетоѵе, ]оіп, зеіесі и зогі для АТД таблиц символов с дескрипторами клиентских эле- 
ментов (см. упражнения 12.6 и 12.7). 


Хеширование 


Р ассматриваемые нами алгоритмы поиска основывают- 
ся на абстрактной операции сравнения. Однако, ме- 
тод поиска с использованием индексирования по ключу, 
описанный в разделе 12.2, при котором элемент с ключом 
/ хранится в позиции / таблицы, что позволяет обратиться 
к нему немедленно, является существенным исключени- 
ем из этого утверждения. При поиске с использованием 
индексирования по ключу значения ключей используются 
в качестве индексов массива, а не участвуют в сравнени- 
ях; при этом метод основывается на том, что ключи явля- 
ются различными целыми числами из того же диапазона, 
что и индексы таблицы. В этой главе мы рассмотрим хе- 
ширование (НазЫпу) — расширенный вариант поиска с ис- 
пользованием индексирования по ключу, применяемый в 
более типовых приложениях поиска, в которых не прихо- 
дится рассчитывать на наличие ключей со столь удобны- 
ми свойствами. Конечный результат применения данного 
метода коренным образом отличается от результата при- 
менения основанных на сравнении методов — вместо пе- 
ремещения по структурам данных словаря со сравнением 
ключей поиска с ключами в элементах, предпринимается 
попытка обращения к элементам в таблице непосред- 
ственно, за счет выполнения арифметических операций 
для преобразования ключей в адреса таблицы. 

Алгоритмы поиска, которые используют хеширование, 
состоят из двух отдельных частей. Первый шаг — вычис- 
ление хеш-функции , которая преобразует ключ поиска в 
адрес в таблице. В идеале различные ключи должны были 
бы отображаться на различные адреса, но часто два и бо- 
лее различных ключа могут преобразовываться в один и 
тот же адрес в таблице. Поэтому вторая часть поиска ме- 
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тодом хеширования — процесс разрешения конфликтов , который обрабатывает такие 
ключи. В одном из рассматриваемых методов разрешения конфликтов используют- 
ся связные списки, поэтому он находит непосредственное применение в динамичес- 
ких ситуациях, когда заранее трудно предвидеть количество ключей поиска. В других 
двух методах разрешения конфликтов высокая производительность поиска обеспечи- 
вается для элементов, хранящихся в фиксированном массиве. Мы исследуем также 
способ усовершенствования этих методов с целью их расширения для случаев, когда 
нельзя заранее предсказать размеры таблицы. 

Хеширование — хороший пример компромисса между временем и объемом памяти. 
Если бы на объем используемой памяти ограничения не накладывались, любой поиск 
можно было бы выполнить за счет всего лишь одного обращения к памяти, просто 
используя ключ в качестве адреса памяти, как это делается при поиске с использова- 
нием индексирования по ключу. Однако, часто этот идеальный случай оказывается 
недостижимым, поскольку требуемый объем памяти неприемлем, когда ключи явля- 
ются длинными. С другой стороны, если бы не существовало ограничений на время 
выполнения, можно было бы обойтись минимальным объемом памяти, используя 
метод последовательного поиска. Хеширование предоставляет способ использования 
как приемлемого объема памяти, так и приемлемого времени с целью достижения 
компромисса между этими двумя крайними случаями. В частности, можно поддержи- 
вать любое выбранное соотношение, просто настраивая размер таблицы, а не пере- 
писывая код или выбирая другие алгоритмы. 

Хеширование — одна из классических задач компьютерных наук: различные ал- 
горитмы подробно исследованы и находят широкое применение. Мы увидим, что при 
ряде общих допущений можно надеяться на обеспечение поддержки операций зеагсИ 
и іпзеп в таблицах символов при постоянном времени выполнения независимо от раз- 
мера таблицы. 

Это ожидаемое постоянное время выполнения — теоретический оптимум произ- 
водительности для любой реализации таблицы символов, но хеширование не является 
панацеей по двум основным причинам. Во-первых, время выполнения зависит от 
длины ключа, которая может быть значительной в реальных приложениях, исполь- 
зующих длинные ключи. Во-вторых, хеширование не обеспечивает эффективные ре- 
ализации для других операций, таких как зеіесі или зон, с таблицами символов. Эти и 
другие вопросы подробно рассматриваются в этой главе. 

14.1 Хеш-функции 

Прежде всего, необходимо решить задачу вычисления хеш-функции, которая за- 
нимается преобразованием ключей в адреса в таблице. Обычно реализация этого ма- 
тематического вычисления не представляет сложности, но необходимо соблюдать 
определенную осторожность во избежание различных малозаметных ловушек. При 
наличии таблицы, которая может содержать М элементов, нам требуется функция, 
которая преобразует ключи в целые числа в диапазоне [О, М— 1]. Идеальную хеш- 
функцию легко вычислить и аппроксимировать случайной функцией: для любого вво- 
димого значения в определенном смысле выводимое значение должно быть равно- 
вероятным. 
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Хеш-функция зависит от типа ключа. Строго говоря, 
для каждого вида ключей, который может использовать- 
ся, требуется отдельная хеш-функция. Для повышения 
эффективности в общем случае желательно избежать яв- 
ного преобразования типов, снова обратившись вместо 
этого к идее рассмотрения двоичного представления 
ключей в машинном слове в виде целого числа, которое 
можно использовать в арифметических вычислениях. Хе- 
ширование предшествовало появлению языков высоко- 
го уровня — на первых компьютерах было типичным в 
один момент времени рассматривать значение как стро- 
ковый ключ, а в следующий — как целое число. В неко- 
торых языках высокого уровня затруднительно создавать 
программы, которые зависят от того, как ключи пред- 
ставляются на конкретном компьютере, поскольку такие 
программы, по самой своей природе, являются машинно- 
зависимыми и поэтому их трудно перенести на другой 
компьютер. В общем случае хеш-функции зависят от 
процесса преобразования ключей в целые числа, поэто- 
му в реализациях хеширования иногда трудно одновре- 
менно обеспечить независимость от компьютера и эф- 
фективность. Как правило, простое целочисленное 
значение или ключи типа с плавающей точкой можно 
преобразовать, выполнив всего одну машинную опера- 
цию, но строковые ключи и другие типы составных клю- 
чей требуют больше затрат и больше внимания в плане 
достижения высокой эффективности. 

Вероятно, простейшей является ситуация, когда клю- 
чами являются числа с плавающей точкой, заведомо от- 
носящиеся к фиксированному диапазону. Например, 
если ключи — числа, которые больше 0 и меньше 1, их 
можно просто умножить на М , округлить до ближайше- 
го целого числа и получить адрес в диапазоне между 0 и 
М- 1; пример показан на рис. 14.1. Если ключи больше 
5 и меньше /, их можно масштабировать, вычтя 5 и раз- 
делив на / — з, в результате чего они попадут в диапазон 
значений между 0 и 1, а затем умножить на М для полу- 
чения адреса в таблице. 

Если ключи — это ѵѵ-разрядные целые числа, их мож- 
но преобразовать в числа с плавающей точкой и разде- 
лить на 2* для получения чисел с плавающей точкой в 
диапазоне между 0 и 1, а затем умножить на М, как в 
предыдущем абзаце. Если операции с плавающей точкой 
выполняются часто, а числа не столь велики, чтобы при- 
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РИСУНОК 14.1 

МУЛЬТИПЛИКАТИВНАЯ ХЕШ- 
ФУНКЦИЯ ДЛЯ КЛЮЧЕЙ С 
ПЛАВАЮЩЕЙ ТОЧКОЙ 

Для преобразования чисел с 
плавающей точкой в диапазоне 
между 0 и 1 в индексы 
таблицы , размер которой 
равен 97, выполняется 
умножение на 97. В этом 
примере имеют место три 
конфликта: при значениях 
индексов равных 17, 53 и 76. 
Старшие разряды ключа 
определяют хеш-значения; 
младшие разряды ключей не 
играют никакой роли. Одна из 
целей разработки хеш-функции 
— избежание дисбаланса , 
когда во время вычисления 
каждый разряд данных играет 
определенную роль. 



Частъ 4. Поиск 


водить к переполнению, этот же результат может быть 
получен с использованием арифметических операций над 
целыми числами: необходимо умножить ключ на Л/, за- 
тем выполнить сдвиг вправо на ѵѵ разрядов для деления 
на 2* (или, если умножение приводит к переполнению, 
выполнить сдвиг, а затем умножение). Такие функции 
бесполезны для хеширования, если только ключи не рас- 
пределены по диапазону равномерно, поскольку хеш- 
значение определяется только ведущими цифрами клю- 
ча. 

Более простой и эффективный метод для поразряд- 
ных целых чисел — один из, вероятно, наиболее часто 
используемых методов хеширования — выбор в качестве 
размера М таблицы простого числа и вычисление остат- 
ка от деления к на Л/, или к(к) = к шосі М для любого це- 
лочисленного ключа к. Такая функция называется мо- 
дульной хеш-функцией. Ее очень просто вычислить 
(к % М в языке С++), и она эффективна для достижения 
равномерного распределения значений ключей между 
значениями, которые меньше М. Небольшой пример по- 
казан на рис. 14.2. 

Модульное хеширование можно использовать также 
для ключей с плавающей точкой. Если ключи относятся к 
небольшому диапазону, можно выполнить масштабиро- 
вание с целью их преобразования в числа из диапазона 
между 0 и 1, умножить на Т для получения ^-разрядных 
целочисленных значений, а затем использовать модуль- 
ную хеш-функцию. Другая альтернатива — просто ис- 
.пользовать в качестве операнда модульной хеш-функции 
двоичное представление ключа (если оно доступно). 

Модульное хеширование применяется во всех 
случаях, когда имеется доступ к разрядам, образующим 
ключи, независимо от того, являются ли они целыми чис- 
лами, представленными машинным словом, последова- 
тельностью символов, упакованных в машинное слово, 
или представлены одним из множества других возмож- 
ных вариантов. Последовательность случайных символов, 
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РИСУНОК 14.2 МОДУЛЬНАЯ 
ХЕШ-ФУНКЦИЯ ДЛЯ 
ЦЕЛОЧИСЛЕННЫХ КЛЮЧЕЙ 

В трех правых столбцах 
показан результат 
хеширования 16-разрядных 
ключей, приведенных слева, с 
помощью следующих функций 
ѵ % 97 (слева) 
ѵ % 100 (в центре) и 
(іпі) ( а * ѵ) % 100 (справа), 
где а = . 618033. Размеры 
таблицы для этих функций 
соответственно равны 97, 100 
и 100. Значения оказываются 
случайными (поскольку ключи 
случайны). Центральная 
функция (ѵ % 100) использует 
только две крайние справа 
цифры ключей и поэтому 


упакованная в машинное слово — не совсем то же, что 
случайные целочисленные ключи, поскольку некоторые 
разряды используются для кодирования. Но оба эти типа 
(и любой другой тип ключа, который кодируется так, что- 
бы уместиться в машинном слове) можно заставить выг- 
лядеть случайными индексами в небольшой таблице. 


может показывать низкую 
производит ел ьност ь 
применительно к неслучайным 
ключам. 
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Глава 14 Хеширование 


Основная причина выбора в качестве размера М 
хеш-таблицы простого числа для модульного хеширо- 
вания иллюстрируется на рис. 14.3. В этом примере 
символьных данных с 7-разрядным кодированием 
ключ трактуется как число с основанием 128 — по од- 
ной цифре для каждого символа в ключе. Слово шт 
соответствует числу 1816567, которое может быть так- 
же записано как 

ПО- 128 2 + 111 • 128'+ 119-128° 

поскольку в АЗСІІ-коде символам п, о и соответству- 
ют числа 156 8 = ПО, 1578 = 1 1 1 и 167 8 = 119. Далее, вы- 
бор размера таблицы М - 64 неудачен для этого типа 
ключа, поскольку добавление к х значений, кратных 
64 (или 128), не оказывает влияния на значение х той 
64 — для любого ключа значением хеш-функции явля- 
ется значение последних 6 разрядов этого ключа. Бе- 
зусловно, хорошая хеш-функция должна учитывать все 
разряды ключа, особенно для ключей, образованных 
символами. Аналогичные ситуации могут возникать, 
когда М содержит множитель, являющийся степенью 2. 
Простейший способ избежать этого — выбрать в каче- 
стве М простое число. 

Модульное хеширование весьма просто реализо- 
вать, за исключением того, что размер таблицы необ- 
ходимо определить простым числом. Для некоторых 
приложений можно довольствоваться небольшим изве- 
стным простым числом или же поискать простое чис- 
ло, близкое к требуемому размеру таблицы, в списке 
известных простых чисел. Например, числа равные 
2' - 1 являются простыми при і — 2, 3, 5, 7, 13, 19 и 31 
(и ни при каких других значениях I < 31): это хорошо 
известные простые числа Мерсенне (Мегзеппе). Чтобы 
динамически распределить таблицу определенных 
размеров, нужно вычислить простое число, близкое к 
определенному значению. Это вычисление не триви- 
ально (хотя и существует остроумный алгоритм выпол- 
нения этой задачи, который исследуется в части 5), по- 
этому на практике обычно используют таблицу заранее 
вычисленных значений (см. рис. 14.4). Использование 
модульного хеширования — не единственная причина, 
по которой размер таблицы определяется простым чис- 
лом; другая причина рассматривается в разделе 14.4. 
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РИСУНОК 14.3 

МОДУЛЬНЫЕ 



ХЕШ-ФУНКЦИИ ДЛЯ 
КОДИРОВАННЫХ СИМВОЛОВ 

В каждой строке этой таблицы 
приведены 3-символьное слово , 
представление этого слова в 
А5СІІ-коде как 21-разрядное 
число в восьмеричной и 
десятичной формах и 
стандартные модульные хеш- 
функции для таблицы с 
размерами 64 и 31 (два крайних 
справа столбца). Размер 
таблицы, равный 64, приводит к 
нежелательным результатам, 
поскольку для получения хеш- 
значения используются только 
самые правые разряды ключа, 
а символы в словах обычного 
языка распределены 
неравномерно. Например, всем 
словам, завершающимся на 
букву у, соответствует хеш- 
значение 57. И напротив, 
простое значение 31 вызывает 
меньше конфликтов в таблице, 
размер которой составляет 
менее половины предыдущей. 


Часть 4 . Поиск 


Другая альтернатива обработки целочисленных клю- 
чей — объединение мультипликативного и модульного 
методов: следует умножить ключ на константу в диапа- 
зоне между 0 и 1, а затем выполнить деление по моду- 
лю М. Другими словами, необходимо использовать фун- 
кцию Н(к) = |_А;сс] той М. Между значениями а, Ми 
эффективным основанием ключа существует взаимодей- 
ствие, которое теоретически могло бы привести к ано- 
мальному поведению, но если использовать умеренное 
значение а, в реальном приложении вряд ли придется 
столкнуться с какой-либо проблемой. Часто в качестве а 
выбирают значение ф = 0.618033... ( золотое сечение). Изу- 
чено множество других вариаций на эту тему, в частно- 
сти хеш-функции, которые могут быть реализованы с 
помощью таких эффективных машинных инструкций, 
как сдвиг и маскирование (см. раздел ссылок). 

Во многих приложениях, в которых используются 
таблицы символов, ключи не являются числами и не обя- 
зательно являются короткими; чаще они оказываются 
алфавитно-цифровыми строками, которые могут быть 
длинными. Как вычислить хеш-функцию для такого сло- 
ва, как 

аѵегу1оп§кеу? 

В 7-разрядном А5СІІ-коде этому слову соответству- 
ет 84-разрядное число 

97 • 128" + 118- 128'°+ 101 • 128 9 + 114- 128 8 + 121 • 128 7 

+ 108 • 128 6 + 111 • 128 5 + ПО- 128 4 + 103 - 128 3 
+ 107 • 128 2 + 101 - 128'+ 121-128°, 

которое слишком велико, чтобы его можно было пред- 
ставить для обычных арифметических функций в боль- 
шинстве компьютеров. Более того, часто требуется обра- 
батывать значительно более длинные ключи. 

Чтобы вычислить модульную хеш-функцию для длин- 
ных ключей, последние преобразуются фрагмент за 
фрагментом. Можно воспользоваться арифметическими 
свойствами функции той и задействовать алгоритм Гор- 
нера (Ногпег) (см. раздел 4.9). 
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РИСУНОК 14.4 ПРОСТЫЕ 


ЧИСЛА ДЛЯ ХЕШ-ТАБЛИЦ 

Эта таблица наибольших 
простых чисел , которые 
меньше 2 п для 8 < п < 32 , 
может использоваться для 
динамического 
распределения хеш-таблицы , 
когда требуется , чтобы 
размер таблицы определялся 
простым числом. Для любого 
данного положительного 
значения в указанном 
диапазоне эту таблицу 
можно использовать для 
получения простого числа, 
отличающегося от него 
менее чем в 2 раза. 



Глава 14. Хеширование 


Этот метод основывается на еще одном способе записи чисел, соответствующих 
ключам. Для рассматриваемого примера запишем следующее выражение: 

((((((((((97-128 + 118)- 128 + 101)- 128 + 114)- 128 + 121)- 128 

+ 108)- 128 + 111)- 128 + ПО)- 128 + 103)- 128 
+ 107)* 128 + 101)- 128 + 121. 

То есть, можно вычислить десятичное число, соответствующее коду символа строки 
при просмотре ее слева направо, умножая полученное значение на 128, а затем до- 
бавляя кодовое значение следующего символа. Со временем, в случае длинной строки, 
этот способ вычисления создал бы число, которое больше того, которое вообще мож- 
но представить в компьютере. Однако вычисленное число нас не интересует, по- 
скольку требуется только остаток от его деления на М, который мал. Результат мож- 
но получить, даже не сохраняя большое накопленное значение, т.к. в любой момент 
вычисления можно отбросить число, кратное М — при каждом выполнении умноже- 
ния и сложения нужно хранить только остаток деления по модулю М. Результат та- 
кой же, как если бы у нас имелась возможность вычислять длинное число, а затем 
выполнять деление (см. упражнение 14.10). Это наблюдение ведет к непосредствен- 
ному арифметическому способу вычисления модульных хеш-функций для длинных 
строк (см. программу 14.1). В программе используется еще одно, последнее ухищре- 
ние: вместо основания 128 в ней используется простое число 127. Причина такого 
изменения рассматривается в следующем абзаце. 

Программа 14.1 Хеш-функция для дроковых ключей 

Эта реализация хеш-функции для строковых ключей требует одного умножения и 
одного сложения на каждый символ в ключе. Если бы константу 127 мы заменили 
константой 128, программа просто вычисляла бы остаток от деления числа, соответ- 
ствующего 7-разрядному АЗСІІ-представлению ключа, на размер таблицы с исполь- 
зованием метода Горнера. Простое основание, равное 127, помогает избежать ано- 
малий, если размер таблицы является степенью 2 или кратным 2. 

іпЪ НазЬ(сЬаг *ѵ, іпЪ М) 

{ іпЪ Ь = О, а * 127; 

^ог (; *ѵ != 0; ѵ++) 

Ъ. = (а*Ь + *ѵ) % М; 

геЪшгп Ь; 

} 


Существует множество способов вычисления хеш-функций приблизительно при 
тех же затратах, что и при выполнении модульного хеширования с использованием 
метода Горнера (при выполнении одной-двух арифметических операций для каждо- 
го символа в ключе). Для случайных ключей методы мало отличаются от описанно- 
го, но и реальные ключи едва ли можно считать случайными. Возможность ценой 
небольших затрат придать реальным ключам случайный вид приводит к рассмотре- 
нию рандомизованных алгоритмов хеширования — нам требуются хеш-функции, кото- 
рые создают случайные индексы таблицы независимо от существующих ключей. Ран- 
домизацию организовать не трудно, поскольку вовсе не требуется буквально 
придерживаться определения модульного хеширования — нужно всего лишь, чтобы 
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в вычислении целого числа, меньшего А/, использова- 
лись все разряды ключа. В программе 14.1 показан 
один из способов выполнения этого: использование 
простого основания вместо степени 2, связанного с 
задействованием целого числа, которое соответствует 
А8СІІ-представлению строки. На рис. 14.5 показано, 
как это изменение препятствует плохому распределе- 
нию типовых строковых ключей. Теоретически хеш- 
значения, созданные программой 14.1, могут не под- 
ходить для размеров таблицы, которые кратны числу 
127 (хотя на практике это, скорее всего, скажется ми- 
нимальным образом); для создания рандомизованно- 
го алгоритма можно было бы выбрать значение мно- 
жителя наугад. Еще более эффективный подход — 
использование случайных значений коэффициентов в 
вычислении и другого случайного значения для каждой 
цифры ключа. Такой подход дает рандомизованный 
алгоритм, называемый универсальным хешированием. 

Теоретически идеальная универсальная хеш-функ- 
ция — это функция, для которой вероятность конф- 
ликта между двумя различными ключами в таблице 
размером М равна в точности 1/М. Можно доказать, 
что использование в качестве коэффициента а в про- 
грамме 14.1 последовательности случайных различных 
значений вместо фиксированного произвольного зна- 
чения преобразует модульное хеширование в универ- 
сальную хеш-функцию. Однако затраты на генериро- 
вание нового случайного числа для каждого символа в 
ключе, скорее всего, окажутся неприемлемыми. В 
прбграмме 14.2 продемонстрирован практический 
компромисс: мы варьируем коэффициенты, генерируя 
простую псевдослучайную последовательность. 



РИСУНОК 14.5 ХЕШ-ФУНКЦИИ 
ДЛЯ СИМВОЛЬНЫХ СТРОК 

На этих диаграммах показано 
распределение для набора 
английских слов (первых 1000 слов 
романа Мелвилла ”. Моби Дик ") в 
случае применения программы 
14. 1 при 

М = 96 и а = 128 (вверху) 

М = 97 и а — 128 (в центре) и 
М = 96 и а = 127 (внизу) 
Неравномерное распределение в 
первом случае является 
результатом неравномерного 
употребления букв и того, что и 
размер таблицы, и множитель 
кратны 32, что ведет к 
сохранению неравномерности. 
Остальные два примера выглядят 
случайными, поскольку размер 
таблицы и множитель являются 
взаимно простыми числами. 


Программа 14.2 Универсальная хеш-функция (для строковых ключей) 

Эта программа выполняет те же вычисления, что и программа 14.1, однако для ап- 
проксимации вероятности возникновения конфликтов для двух несовпадающих клю- 
чей до значения 1 /М вместо фиксированных оснований системы счисления приме- 
няются псевдослучайные значения коэффициентов. С целью минимизации 
нежелательных временных затрат при вычислении хеш-функции используется гру- 
бый генератор случайных чисел. 

іпЪ ЬазЬЦ(сЪаг *ѵ, іпѣ М) 

{ іпЪ Ь, а = 31415, Ь = 27183; 

^ог (Ь = 0; *ѵ != 0; ѵ++, а = а*Ъ % (М-1)) 

Ъ = (а*Ь + *ѵ) % М; 

геЪигп (Ь < 0) ? (Ь + М) Ь; 


> 
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Подведем итоги: чтобы использовать хеширование для реализации абстрактной 
таблицы символов, в качестве первого шага необходимо расширить интерфейс абст- 
рактного типа, включив в него операции ЬазЬ, которая отображает ключи на неотри- 
цательные целые числа, меньше размера таблицы М. Непосредственная реализация 

іпііпе іпѣ ЬазЬ(Кеу ѵ, іпѣ М) 

{ гвѣит (іп'Ь) М* (ѵ-з) / (Ъ-з) ; } 

выполняет эту задачу для ключей с плавающей точкой, имеющих значения между 5 и 
/; для целочисленных ключей можно просто вернуть значение ѵ % М. Если М не яв- 
ляется простым числом, хеш-функция может возвращать 

(іпѣ) (.616161 * (±1оаЬ) ѵ) % М 

или результат аналогичного целочисленного вычисления, такой как 

(16161 * (ипзідпѳсі) ѵ) % М 

Все эти функции, включая программу 14.1, работающую со строковыми ключами, 
проверены временем; они равномерно распределяют ключи и служат программистам 
в течение многих лет. Универсальный метод, предртавленный в программе 14.2 — за- 
метное усовершенствование для строковых ключей, которое обеспечивает случайные 
хеш-значения при небольших затратах; аналогичные рандомизованные методы мож- 
но применить к целочисленным ключам (см. упражнение 14.1). 

В конкретном приложении универсальное хеширование может работать значи- 
тельно медленнее более простых методов, поскольку в случае длинных ключей для 
выполнения двух арифметических операций для каждого символа в ключе может зат- 
рачиваться слишком большое время. Для обхода этого ограничения ключи можно 
обрабатывать большими фрагментами. Действительно, наряду с элементарным мо- 
дульным хешированием можно использовать наибольшие фрагменты, которые поме- 
щаются в машинное слово. Как подробно рассматривалось ранее, подобного вида 
операция может оказаться труднореализуемой или требовать специальных средств в 
некоторых строго типизованных языках высокого уровня, однако она может требо- 
вать малых затрат или не требовать абсолютно никакой работы в С++, если исполь- 
зовать вычисления с подходящими форматами представления данных. Во многих си- 
туациях важно учитывать эти факторы, поскольку вычисление хеш-функции может 
выполняться во внутреннем цикле, следовательно, ускоряя хеш-функцию, можно 
ускорить все вычисление. 

Несмотря на очевидные преимущества рассмотренных методов, их реализация 
требует внимания по двум причинам. Во-первых, необходимо быть внимательным во 
избежание ошибок при преобразовании типов и использовании арифметических фун- 
кций применительно к различным машинным представлениям ключей. Подобные 
операции часто являются источниками ошибок, особенно при переносе программы со 
старого компьютера на новый с другим количеством разрядов в слове или другой точ- 
ностью выполнения операций. Во-вторых, весьма вероятно, что во многих приложе- 
ниях вычисление хеш-функции будет выполняться во внутреннем цикле и время ее 
выполнения может в значительной степени определять общее время выполнения. В 
подобных случаях важно убедиться, что функция сводится к эффективному машин- 
ному коду. Подобные операции — известные источники снижения эффективности; 
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например, разность времени выполнения простого модульного метода и версии, в 
которой вначале выполняется умножение на 0.61616, может быть поразительной на 
компьютерах с низкой производительностью аппаратуры или программного обеспе- 
чения операций с плавающей* точкой. Наиболее быстрый метод для многих компью- 
теров — сделать М степенью 2 и воспользоваться хеш-функцией 

іпііпе іпЪ ЬазЬ(Кеу ѵ, іпѣ М) 

{ геЪшгп ѵ & (М-1) ; } 

Эта функция использует только самые младшие разряды ключей, но операция по- 
битового апсі выполняется существенно быстрее целочисленного деления, тем самым 
минимизируя нежелательные эффекты плохого распределения ключей. 

Типичная ошибка в реализациях хеширования заключается в том, что хеш-функ- 
ция всегда возвращает одно и то же значение, возможно потому, что требуемое пре- 
образование типов выполняется неправильно. Такая ошибка называется ошибкой 
производительности , поскольку использующая подобную хеш-функцию программа 
вполне может выполняться корректно, но крайне медленно (т.к. ее эффективная 
работа возможна только, если хеш-значения распределены равномерно). Одностроч- 
ные реализации этих функций очень легко тестировать, поэтому мы настоятельно 
рекомендуем проверять, насколь успешно они работают для типов ключей, которые 
могут встретиться в любой конкретной реализации таблицы символов. 

Для проверки гипотезы, что хеш-функция создает случайные значения, можно 
использовать функцию статистического распределения у 2 (см. упражнение 14.5), но, 
возможно, это требование — слишком жесткое. Действительно, нас вполне может 
удовлетворить, если хеш-функция создает каждое значение одинаковое количество 
раз, что соответствует значению функции статистического распределения у 2 , равно- 
му 0, и местами не является случайным. Тем не менее, следует с подозрением отно- 
ситься к очень большим значениям функции статистического распределения у 2 . На 
практике, вероятно, достаточно использовать проверку того, что значения распреде- 
лены до такой степени, чтобы ни одно из значений не доминировало (см. упражне- 
ние 14.15). 

По этим же соображениям хорошо разработанная реализация таблицы символов, 
основанная на универсальном хешировании, могла бы периодически проверять, что 
хеш-значения не являются неравномерно распределенными. Клиента можно было бы 
информировать либо о том, что имело место маловероятное событие, либо о наличии 
ошибки в хеш-функции. Подобного рода проверка оказалась бы разумным дополне- 
нием к любому реальному рандомизованному алгоритму. 

Упражнения 

> 14.1 Используя абстракцию йщіі из главы 10 для обработки машинного слова как 
последовательности байтов, реализуйте рандомизованную хеш-функцию для клю- 
чей, которые представлены разрядами в машинных слова. 

14.2 Проверьте, сопряжено ли преобразование 4-байтового ключа в 32-разрядное 
целое число в используемой программной среде с какими-либо накладными рас- 
ходами в плане времени выполнения. 
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о 14.3 Разработайте хеш-функцию для строковых ключей, основанную на идее од- 
новременной загрузки 4 байт с последующим выполнением арифметических опе- 
раций сразу над 32 разрядами. Сравните время выполнения этой функции со вре- 
менем выполнения программы 14.1 для 4-, 8-, 16- и 32-байтовых ключей. 

14.4 Создайте программу для определения значений а и М при минимально воз- 
можном значении М, чтобы хеш-функция а*х % М создавала различные (несов- 
падающие) значения для ключей, представленных на рис. 14.2. Результат являет- 
ся примером совершенной хеш-функции. 

о 14.5 Создайте программу для вычисления функции статистического распределения 
% 2 для хеш-значений N ключей при размере таблицы, равном М. Это число опре- 
деляется равенством 



где /і — количество ключей с хеш-значением і. Если хеш-значения являются слу- 
чайными, значение этой функции статистического распределения для N > сМ дол- 
жно быть равно с вероятностью 1 — 1/с. 

14.6 Воспользуйтесь программой из упражнения 14.5 для вычисления хеш-функ- 
ции 618033*х % 10000 для ключей, которые являются случайными положительны- 
ми целыми числами, меньшими ІО 6 . 

14.7 Используйте программу из упражнения 14.5 для вычисления хеш-функции из 
программы 14.1 для различных строковых ключей, полученных из какого-либо 
большого файла в системе, например, словаря. 

• 14.8 Предположите, что ключи являются /-разрядными целыми числами. Для мо- 
дульной хеш-функции с простым основанием М докажите, что каждый разряд 
ключа обладает тем свойством, что существуют два ключа, различающиеся только 
этим разрядом при различных хеш-значениях. 

14.9 Рассмотрите идею реализации модульного хеширования для целочисленных 
ключей с помощью соотношения (а*х) % М, где а — произвольное фиксирован- 
ное простое число. Приводит ли это изменение к достаточному перемешиванию 
разрядов, чтобы можно было использовать значение М, не являющееся простым 
числом? 

14.10 Докажите, что 

(((ах) тоб М) + Ь) то б М = (ах + Ь) тоб М , 

при условии, что а, Ь, х и М — неотрицательные целые числа. 

О 14.11 Если в упражнении 14.7 использовать слова из текстового файла, например 
книги, вряд ли удастся получить хорошую функцию статистического распределе- 
ния % 2 . Обоснуйте справедливость этого утверждения. 

14.12 Воспользуйтесь программой из упражнения 14.5 для вычисления хеш-фун- 
кции 97*х % М для всех размеров таблицы в диапазоне от 100 до 200, используя 
в качестве ключей ІО 3 случайных положительных целых чисел, меньших 10 6 . 
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14.13 Воспользуйтесь программой из упражнения 14.5 для вычисления хеш-фун- 
кции 97*х % М для всех размеров таблицы в диапазоне от 100 до 200, используя 
в качестве ключей целые числа в диапазоне между 10 2 и 10 3 . 

14.14 Воспользуйтесь программой из упражнения 14.5 для вычисления хеш-фун- 
кции 100*х % М для всех размеров таблицы в диапазоне от 100 до 200, используя 
в качестве ключей 10 3 случайных положительных целых чисел, меньших ІО 6 . 

14.15 Выполните упражнения 14.12 и 14.14, но реализуйте более простой крите- 
рий отбрасывания хеш-функций, которые создают любое значение более ЗтѴ/Л/ 
раз. 

14.2 Раздельное связывание 

Рассмотренные в разделе 14.1 хеш-функции преобразуют ключи в адреса таблицы; 
второй компонент алгоритма хеширования — определения способа обработки случая, 
когда два ключа представляются одним и тем же адресом. Самый прямой метод — по- 
строить для каждого адреса таблицы связный список элементов, ключи которых ото- 
бражаются на этот адрес. Данный подход ведет непосредственно к обобщению метода 
элементарного поиска в списке (см. главу 12) из программы 14.3. Вместо поддержки 
единственного списка поддерживаются М списков. 

Программа 14.3 Хеширование с помощью раздельного связывания 

Эта реализация таблицы символов сводится к замене конструктора ЗТ, функций 
зеагсН и іпзегі в основанный на связном списке таблице символов из программы 
12.6 на приведенные здесь функции и к замене связи йеасі на массив связей Ьеасіз. 

В этой программе используются такие же рекурсивные процедуры поиска и удале- 
ния в списке, как и в программе 12.6, но при этом поддерживается М списков с 
заглавными связями в Ьеасіз, с использованием хеш-функции для выбора между 
списками. Конструктор устанавливает М так, что каждый список должен содержать 
около пяти элементов; поэтому для выполнения остальных операций требуется всего 
несколько проверок. 

ргіѵаЪе : 

Ііпк* Ьеасіз ; 
іпЪ Ы, М; 
риЫіс : 

5Т(іп1: шахЫ) 

{ 

N = 0; М = шахИ/б; 

Ьеасіз = пеѵг 1іпк[М] ; 

і:ог (іпЬ і = 0; і < М; і++) Ьеасіз [і] = 0; 

} 

ІЬеш зеагсЬ(Кеу ѵ) 

{ геЪигп зеагсЬК (Ьеасіз [ЬазЬ (ѵ, М) ] , ѵ) ; } 

ѵоісі іпзегЬ (ІЬет іі:ѳт) 

{ іпЬ і = ЬазЬ (іЬет. кеу () , М) ; 

Ьеасіз [і] = пеѵ посіе (іЬет, Ьеасіз [і] ) ; N+4-; } 


Метод традиционно называется раздельным связыванием (зерагаіе скаіпіп§), посколь- 
ку конфликтующие элементы объединяются в отдельные связные списки (см. рис. 
14.6). 
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Как и в случае элементарного последовательного 
поиска, эти списки можно хранить упорядоченными 
или оставить неупорядоченными. При этом приходится 
идти на те же основные компромиссы, что и описан- 
ные в разделе 12.3, но для раздельного связывания эко- 
номия времени имеет меньшее значение (поскольку 
списки невелики), а экономия памяти — более важна 
(поскольку имеется много списков). 

Для упрощения кода вставки в упорядоченный спи- 
сок можно было бы использовать начальный узел, но 
применение Л/ начальных узлов для отдельных списков 
при раздельном связывании может быть нежелательно. 
Действительно, можно было бы даже исключить Л/ свя- 
зей на эти списки, объединив первые узлы списков в 
таблицу (см. упражнение 14.20). 

Для случая промаха при поиске можно считать, что 
хеш-функция достаточно равномерно перемешивает 
значения ключей, чтобы поиск в каждом из Л/ списков 
был равновероятным. Тогда характеристики производи- 
тельности, рассмотренные в разделе 12.3, применимы к 
каждому списку. 

Лемма 14 Л Раздельное связывание уменьшает количе- 
ство выполняемых при последовательном поиске сравне- 
ний в М раз (в среднем) при использовании дополнитель- 
ного объема памяти для М связей. 


А 5 Е ВС Н I N О X М Р Ь 
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РИСУНОК 14.6 ХЕШИРОВАНИЕ 
С ИСПОЛЬЗОВАНИЕМ 
РАЗДЕЛЬНОГО СВЯЗЫВАНИЯ 

На диаграмме показан 
результат вставки ключей А 8 

ЕКСН^ОХМРЬв 

первоначально пустую хеш- 
таблицу с помощью 
раздельного связывания 
(неупорядоченных списков) с 
использованием хеш-значений , 
приведенных на верхнем 
рисунке. А помещается в 
список 0, затем 5 помещается 
в список 2, Е — в список 0 
(в его начало , с целью 
поддержания постоянства 
времени вставки), К — в 
список 4 и т.д. 


Средняя длина списков равна Н/М. Как было описано в главе 12, ожидается, что 
успешные поиски будут доходить приблизительно до середины какого-либо списка. 
Безрезультатные поиски будут доходить до конца списка, если списки неупорядо- 
чены, и до половины списка, если они упорядочены. 


Чаще всего для раздельного связывания используются неупорядоченные списки, 
поскольку этот подход прост в реализации и эффективен: для выполнения операции 
ітегі требуется постоянное время, а для выполнения операции зеагсИ — время, про- 
порциональное А 1/М. Если ожидается очень большое количество промахов при поис- 
ке, обнаружение промахов можно ускорить в два раза, храня списки в упорядочен- 
ном виде, ценой замедления операции іпзегі. 

В приведенном виде лемма 14.1 тривиальна, поскольку средняя длина списков рав- 
на АУЛ/ независимо от распределения элементов по спискам. Например, предполо- 
жим, что все элементы попадают в первый список. Тогда средняя длина списков рав- 
на (И + 0 + 0 + ... + 0) / М — N / М. Истинная причина практической полезности 
хеширования заключается в "Том, что вероятность наличия в каждом списке около 
АУЛ/ элементов очень высока. 
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Лемма 14.2 В хеш-таблице , использующей раздельное связывание , содержащей М спис- 
ков и N ключей , вероятность того , что количество ключей в каждом списке незначи- 
тельно отличается от ]Ч/М, очень близка к 1. 

Для читателей, которые знакомы с основами вероятностного анализа, мы приво- 
дим краткое изложение этих классических рассуждений. В соответствии с элемен- 
тарным доказательством, вероятность, что данный список будет содержать к эле- 
ментов, равна 




\М—к 


к выбирается из N элементов: эти к элементов помещаются в данный список с ве- 
роятностью 1/М, а остальные А I— к элементов не помещаются в данный список с 
вероятностью 1 — (1/Л/)- Обозначив а =/Ѵ/Л/, это выражение можно переписать как 


/ 

V 






5 


которое, в соответствии с классической аппроксимацией Пуассона (Роі$$оп), мень- 
ше чем 


а к е “ 

к\ 

Отсюда следует, что вероятность наличия в списке более чем га элементов мень- 
ше чем 



Эта вероятность исключительно мала для используемых на практике диапазонов 
параметров. Например, если средняя длина списков равна 20, вероятность хеши- 
рования в какой-либо список, содержащий более 40 элементов, меньше чем 

(40е / 2)Ѵ 20 » 0.0000016. 

Приведенный анализ — пример классической задачи занятости , при которой рас- 
сматривается N мячей, произвольно забрасываемых в одну из М корзин, и анализи- 
руется распределение мячей по корзинам. Классический математический анализ этих 
задач предоставляет много других интересных фактов, имеющих отношение к изуче- 
нию алгоритмов хеширования. Например, в соответствии с аппроксимацией Пуассона 
количество пустых списков близко к е ~ Еще интереснее, что среднее количество 
элементов, вставленных прежде, чем происходит первое совпадение, равно прибли- 
зительно д/л М / 2 ~ 1.25 ѴМ • Этот результат — решение классической задачи о дне 

рождения. Например, в соответствии с этими же рассуждениями, при М = 365 среднее 
количество людей, которых придется проверить, прежде чем удастся найти двух с оди- 
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наковыми датами рождения, приблизительно равно 24. В соответствии со вторым 
классическим результатом среднее количество элементов, вставленных прежде, чем 
в каждом списке окажется, по меньшей мере, по одному элементу, приблизительно 
равно МНм- Этот результат — решение классической задачи коллекционера карточек. 
Например, в соответствии с этим анализом при М = 1280, вероятно, придется собрать 
9898 бейсбольных карточек (купонов), прежде чем удастся заполучить по одной кар- 
точке для каждого из 40 игроков каждой из 32 команд в серии. Полученные резуль- 
таты весьма показательны для проанализированных свойств хеширования. На прак- 
тике, в соответствии с ними, раздельное связывание можно успешно использовать, 
если хеш-функция создает значения, близкие к случайным (см. раздел ссылок). 

Как правило, в реализациях раздельного связывания значение М выбирают дос- 
таточно малым, чтобы не приходилось напрасно расходовать огромные непрерывные 
области памяти с пустыми связями, но достаточно большим, чтобы последовательный 
поиск был наиболее эффективным методом для списков. Гибридные методы (такие, 
как использование бинарных деревьев вместо связных списков), вероятно, не стоят 
беспокойства. В качестве руководящего принципа, значение М можно выбирать рав- 
ным приблизительно одной пятой или одной десятой количества ключей, ожидаемо- 
го в таблице, чтобы каждый из списков предположительно в среднем содержал око- 
ло пяти или десяти ключей. Одно из достоинств раздельного связывания в том, что это 
решение не критично: при наличии большего количества ключей, чем ожидалось, 
поиски будут занимать несколько больше времени, чем если бы заранее был выбран 
больший размер таблицы; при наличии в таблице меньшего количества ключей поиск 
будет выполняться еще быстрее при, вероятно, небольшом объеме напрасно расхо- 
дуемой памяти. Когда объем памяти не является критичным, значение М может быть 
выбрано достаточно большим, чтобы время поиска было постоянным; когда же объем 
памяти критичен , все же можно повысить производительность в М раз, выбрав зна- 
чение М максимально допустимым. 

Приведенные в предыдущем абзаце комментарии применимы ко времени поис- 
ка. На практике для раздельного связывания обычно применяются неупорядоченные 
списки по двум основным причинам. Во-первых, как уже упоминалось, операция 
іпзегі выполняется исключительно быстро: мы вычисляем хеш-функцию, выделяем 
память для узла и связываем узел с началом соответствующего списка. Во многих 
приложениях шаг распределения памяти не требуется (поскольку элементами, встав- 
ленными в таблицу символов, могут быть существующие записи с доступными поля- 
ми связей), и для выполнения операции іпзегі остается выполнить всего три или че- 
тыре машинные инструкции. Второе важное преимущество использования в 
программе 14.3 реализации с использованием неупорядоченных списков в том, что 
все списки работают подобно стекам, поэтому можно легко удалить последние встав- 
ленные элементы, которые размещаются в начале списков (см. упражнение 14.21). 
Эта операция важна при реализации таблицы символов со вложенными диапазонами, 
например в компиляторе. 

Как и в нескольких предшествующих реализациях, мы неявно предоставляем кли- 
енту выбор способа обработки дублированных ключей. Клиент, подобный програм- 
ме 12.11, может выполнить операцию зеагсИ для проверки наличия дубликатов перед 
выполнением любой операции іпзегі , убеждаясь, что таблица не содержит дублирован- 
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ных ключей. Другой клиент может избежать сопряженных с этой операцией зеагсН 
затрат, оставив дубликаты в таблице, тем самым ускоряя выполнение операций іпвегі . 

В общем случае хеширование не подходит для использования в приложениях, в 
которых требуются реализации операций вогі и веіесі для АТД. Однако хеширование 
часто используется в типовых ситуациях, когда необходимо использовать таблицу сим- 
волов с потенциально большим количеством операций зеагсН , іпвегі и гетоѵе с после- 
дующим однократным выводом элементов в порядке их ключей. Одним из примеров 
такого приложения является таблица символов в компиляторе; другой пример — про- 
грамма удаления дубликатов, подобная программе 12.11. Для обработки этой ситуа- 
ции в реализации раздельного связывания с использованием неупорядоченных спис- 
ков следовало бы воспользоваться одним из методов сортировки, описанных в главах 
6—10. В реализации с использованием упорядоченного списка сортировку можно 
было бы выполнить за время, пропорциональное А1$Л/ в случае сортировки слияни- 
ем списка (см. упражнение 14.23). 

Упражнения 

> 14.16 Сколько времени могло бы потребоваться в худшем случае для вставки N 
ключей в первоначально пустую таблицу при использовании раздельного связыва- 
ния с (/) неупорядоченными списками и (//) упорядоченными списками? 

> 14.17 Приведите содержимое хеш-таблицы, образованной при вставке элементов 
с ключами ЕА8У(21ІТІС^в указанном порядке в первоначально пустую таб- 
лицу, состоящую из N = 5 списков при использовании раздельного связывания с 
неупорядоченными списками. Для преобразования &-той буквы алфавита в индекс 
таблицы используйте хеш-функцию ПА: тоб М. 

> 14.18 Выполните упражнение 14.17, но для случая упорядоченных списков. Зави- 
сит ли ответ от порядка вставки элементов? 

о 14.19 Создайте программу, которая с использованием раздельного связывания 
вставляет А случайных целых чисел в таблицу размером А/100, а затем определя- 
ет длину самого короткого и самого длинного списков, при А = ІО 3 , 10 4 , ІО 5 и ІО 6 . 

14.20 Измените программу 14.3 с целью исключения из нее заглавных связей пу- 
тем представления таблицы символов в виде массива узлов (пос1е§) (каждая запись 
таблицы — первый узел в ее списке). 

14.21 Измените программу 14.3, включив в нее для каждого элемента целочислен- 
ное поле, значение которого устанавливается равным количеству элементов в таб- 
лице в момент вставки элемента. Затем реализуйте функцию, которая удаляет все 
элементы, для которого значение этого поля больше заданного целого числа А. 

14.22 Измените реализацию функции зеагсН в программе 14.3, чтобы она отобра- 
жала все элементы, ключи которых равны данному ключу, так же, как это дела- 
ет функция §1ниѵ. 

14.23 Разработайте реализацию таблицы символов, использующую раздельное свя- 
зывание с упорядоченными списками (при фиксированном размере таблицы, рав- 
ном 97), которая включает деструктор, конструктор копирования и перегружен- 
ную операцию присваивания и поддерживает операции сопвігисі , соиШ, зеагсИ, іпвегі, 
гетоѵе , ]оіп, веіесі и вогі для АТД первого класса таблицы символов при поддержке 
дескрипторов клиента (см. упражнения 12.6 и 12.7). 
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14.3 Линейное зондирование 

Если можно заранее предусмотреть количество элементов, которые должны быть 
помещены в хеш-таблицу, и при наличии достаточно большой непрерывной области 
памяти, в которой можно хранить все ключи при некотором остающемся свободном 
объеме памяти, в хеш-таблице, вероятно, вообще не стоит использовать какие-либо 
связи. Существует несколько методов хранения N элементов в таблице размером 
М > УѴ, при которых разрешение конфликтов основывается на наличии пустых мест 
в таблице. Такие методы называются методами хеширования с открытой адресацией. 

Простейший метод открытой адресации называется линейным зондированием (Ііпеаг 
ргоЫп%)\ при наличии конфликта (когда хеширование выполняется в место таблицы, 
которое уже занято элементом с ключом, не совпадающим с ключом поиска) мы про- 
сто проверяем следующую позицию в таблице. Обычно подобную проверку (опреде- 
ляющую, содержит ли данная позиция таблицы элемент с ключом, равным ключу по- 
иска) называют зондированием (ргоЬе). 

Линейное зондирование характеризуется выявлением одного из трех возможных 
исходов зондирования: если позиция таблицы содержит элемент, ключ которого со- 
впадает с искомым, имеет место попадание при поиске; в противном случае (если 
позиция таблицы содержит элемент, ключ которого не совпадает с искомым) мы про- 
сто зондируем позицию таблицы со следующим по величине индексом, продолжая 
этот процесс (возвращаясь к началу таблицы при достижении ее конца) до тех пор, 
пока не будет найден искомый ключ или пустая позиция таблицы. Если содержащий 
искомый ключ элемент должен быть вставлен вслед за неудачным поиском, он поме- 
щается в пустую область таблицы, в которой поиск был завершен. Программа 14.4 — 
это реализация АТД таблицы символов, где используется этот метод. Процесс пост- 
роения хеш-таблицы с использованием линейного зондирования для тестового набора 
ключей показан на рис. 14.7. 

Программа 14.4 Линейное зондирование 

Эта реализация таблицы символов хранит элементы в таблице, размер которой 
вдвое превышает максимально ожидаемое количество элементов и инициализиру- 
ется значением пиІІІіет. Таблица содержит сами элементы; если элементы велики, 
тип элемента можно изменить, чтобы он содержал ссылки на элементы. 

Для вставки нового элемента выполняется хеширование в позицию таблицы и ска- 
нирование вправо с целью нахождения незанятой позиции, используя в незанятых 
позициях нулевые элементы в качестве служебных, как это делалось при поиске с 
индексированием по ключу (программа 12.4). Для поиска элемента с данным клю- 
чом мы обращаемся к позиции ключа в хеш-таблице и выполняем сканирование для 
отыскания совпадения, завершая процесс после нахождения незанятой позиции. 

Конструктор устанавливает М таким образом, чтобы таблица была заполнена ме- 
нее чем наполовину, поэтому для выполнения остальных операций потребуется все- 
го несколько зондирований, если хеш-функция создает значения, достаточно близ- 
кие к случайным. 

ргіѵаѣе : 

ІЪет *зі; 
іпЪ Ы, М; 

І^ет пиІШет; 
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риЫіс : 

5Т(іп1 хпахЫ) 

{ 

N = 0; М = 2*тах1*; 
а! = пеѵ І1ет[М] ; 

^ог (іпѣ і = 0; і < М; і++) 
з-Ь[і] = пиПНеш; 

} 

іпЪ соипЪ() сопзі { геЬигп Ы; } 
ѵоісі іпзегі. (Пет Нет) 

{ іпЪ і = ЬазЬ (Пет. кеу () , М) ; 

ѵЫІе ( ! зі: [і] . пиіі () ) і = (і+1) % М; 

8І[і] = Нет; N4-+; 

} 

Нет зеагсЬ (Кеу ѵ) 

{ іпЪ і = ЬазЬ(ѵ, М) ; 
ѵгЬіІе ( ! з1[і] .пиіі () ) 

Н (ѵ = зЪ [і] . кеу () ) геЪигп з1[і] ; 
еізе і = (і+1) % М; 

геЪигп пиІІИет; 

} 
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РИСУНОК 14.7 ХЕШИРОВАНИЕ 
МЕТОДОМ ЛИНЕЙНОГО 
ЗОНДИРОВАНИЯ 

На этой диаграмме показан 
процесс вставки ключей А8Е 

КСНШСХМРв 


Как и в случае раздельного связывания, производи- 
тельность методов с открытой адресацией зависит от 
коэффициента а = И/М, но при этом он интерпретиру- 
ется иначе. В случае раздельного связывания а — сред- 
нее количество элементов в одном списке, которое в 
общем случае больше 1. В случае открытой адресации 
а — доля занятых позиций таблицы в процентах; она 
должна быть меньше 1. Иногда а называют коэффици- 
ентом загрузки хеш-таблицы. 

В случае разреженной (слабо заполненной) таблицы 
(значение а мало) можно рассчитывать, что в боль- 
шинстве случаев поиска пустая позиция будет найдена в 
результате всего нескольких зондирований. В случае 
почти полной таблицы (значение а близко к 1) для 
выполнения поиска могло бы потребоваться очень 
большое количество зондирований, а когда таблица 
полностью заполнена, поиск может даже привести к 
бесконечному циклу. Как правило, при использовании 
линейного зондирования во избежание больших затрат 
времени при поиске стремятся к тому, чтобы не допус- 
тить заполнения таблицы. То есть, вместо того, чтобы 
использовать дополнительный объем памяти для связей, 
задействуется дополнительное пространство в хеш-таб- 


первоначалъно пустую хеш- 
таблицу с открытой 
адресацией , размер которой 
равен 13, при использовании 
показанных вверху хеш- 
значений и разрешении 
конфликтов за счет 
применения линейного 
зондирования. Вначале А 
помещается в позицию 1, 
затем 5 помещается в 
позицию 3, Е — в позицию 9, 
далее, после конфликта в 
позиции 9, К помещается в 
позицию 10 и т.д. При 
достижении правого конца 
таблицы зондирование 
продолжается с левого конца: 
например, последний 
вставленный ключ Р 
помещается в позицию 8, 
затем после возникновения 
конфликта в позициях 8 — 12 и 
0—5 выполняется 
зондирование позиции 5. Все 
позиции таблицы, которые не 
зондировались, затенены. 


лице, что позволяет сократить последовательности зон- 
дирования. При использовании линейного зондирования размер таблицы больше, чем 
при раздельном связывании, поэтому необходимо, чтобы М > И, но общий исполь- 
зуемый объем памяти может быть меньше, поскольку никаких связей не используется. 
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Вопросы сравнения используемого объема памяти подробно рассматриваются в раз- 
деле 14.5. Пока же давайте проанализируем время выполнения линейного зондиро- 
вания как функцию ос. 

Средние затраты на выполнение линейного зондирования зависят от способа 
объединения элементов в непрерывные группы занятых ячеек таблицы, называемые 
кластерами ( сіизіегз ), при их вставке. Давайте рассмотрим следующие два крайних слу- 
чая заполненной наполовину ( М = 27Ѵ) таблицы линейного зондирования: в лучшем 
случае позиции таблицы с четными индексами могли бы быть пустыми, а с нечетны- 
ми — занятыми. В худшем случае первая половина позиций таблицы могла бы быть 
пустой, а вторая — заполненной. Средняя длина кластеров в обоих случаях равна 
АУ(27Ѵ) = 1/2, но среднее количество зондирований для безуспешного поиска равно 
1 (все поиски требуют, по меньшей мере, одного зондирования) плюс 

(О + 1 + 0 + 1 + ...) / (2 И) =1/2 

в лучшем случае и 1 плюс 

(7Ѵ+ (УѴ- 1) + (7Ѵ-2) + ...) / (2УѴ) ~ УѴ/4 

в худшем случае. 

Обобщая приведенные рассуждения, приходим к выводу, что среднее количество 
зондирований для безуспешного поиска пропорционально квадратам длин кластеров. 
Среднее значение вычисляется путем вычисления затрат для промаха при поиске, 
начиная с каждой позиции таблицы, и деля сумму на М. Для обнаружения всех про- 
махов при поиске требуется не менее 1 зондирования, поэтому выполняется подсчет 
количества зондирований, следующих за первым. Если кластер имеет дину /, то вы- 
ражение 

(і + (/“ 1) + ... + 2 + 1) / М — і {1 + 1) / (2 М) 

определяет вклад этого кластера в общую сумму. Сумма длин кластеров равна УѴ, по- 
этому суммируя эти затраты для всех ячеек в таблице, находим, что общие средние 
затраты на обнаружение промаха при поиске равны 1 + УѴ/( 2М) плюс сумма квадра- 
тов длин кластеров, деленная на 2 М. Имея заданную таблицу, можно быстро вычис- 
лить средние затраты на безуспешный поиск в этой таблице (см. упражнение 14.28), 
но кластеры образуются в результате сложного динамического процесса (алгоритма 
линейного зондирования), который трудно охарактеризовать аналитически. 

Лемма 14.3 При разрешении конфликтов с помощью линейного зондирования среднее 
количество зондирований, требуемых для поиска в хеш-таблице размером М, которая со- 
держит N = а М ключей, приблизительно равно 





\ 


для попаданий и промахов, соответственно. 

Несмотря на сравнительно простую форму полученных результатов, точный ана- 
лиз линейного зондирования — сложная задача. Вывод, полученный Кнутом (КпиіЬ) 
в 1962 г., явился значительной вехой в анализе алгоритмов {см. раздел ссылок). 
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Точность этих выражений уменьшается с приближением значения а к 1, но в дан- 
ном случае это не важно, поскольку в любом случае линейное зондирование не сле- 
дует использовать в почти заполненной таблице. Для меньших значений а уравнения 
достаточно точны. Ниже приведена таблица обобщенных значений ожидаемого ко- 
личества зондирований, требуемых для обнаружения попаданий и промахов при по- 
иске с использованием линейного зондирования: 


коэффициент загрузки (а) 

1/2 

2/3 

3/4 

9/10 

попадание при поиске 

1.5 

2.0 

3.0 

5.5 

промах при поиске 

2.5 

5.0 

8.5 

55.5 


м 5 н р 

О 3 4 в 

С®М 3 Н Р А С Е Н I N 
6 М 3 Н Р А С Е Я I N 


Для обнаружения промахов при поиске всегда требу- 
ются большие затраты, чем для обнаружения попада- 
ний, и в обоих случаях в таблице, которая заполнена 
менее чем на половину, в среднем требуется лишь не- 
сколько зондирований. 

Подобно тому, как это делалось при использовании 
раздельного связывания, мы предоставляем клиенту 
право выбора, хранить ли в таблице элементы с дубли- 
рованными ключами. Такие элементы не обязательно 
размещаются в таблице линейного зондирования в со- 
седних позициях — среди элементов с дублированными 
ключами могут размещаться и другие элементы с таким 
же хеш-значением. 

Исходя из самого способа образования таблицы, 
ключи в таблице, построенной линейным зондировани- 
ем, размещаются в случайном порядке. В результате 
операции зон и зеіесг абстрактного типа данных требуют 
реализации с самого начала по одному из методов, опи- 
санных в главах 6—10. Поэтому линейное зондирование 
не подходит для приложений, в которых эти операции 
выполняются часто. 

А как удалить ключ из таблицы, построенной с помо- 
щью линейного зондирования? Его нельзя просто уда- 
лить, поскольку элементы, которые были вставлены поз- 
же, могут вызывать пропуск этого элемента и поэтому 
поиск таких элементов мог бы постоянно прерываться 
на пустой позиции, оставленной удаленным элементом. 
Одно из решений этой проблемы заключается в повтор- 
ном хешировании всех элементов, для которых эта про- 
блема могла бы возникнуть — между удаленным эле- 
ментом и следующей незанятой позицией справа от 
него. Пример, иллюстрирующий этой процесс, приведен 
на рис. 14.8. Программа 14.5 содержит реализацию это- 
го подхода. В разреженной таблице в большинстве слу- 
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РИСУНОК 14.8 УДАЛЕНИЕ В 
ХЕШ-ТАБЛИЦЕ, 
ИСПОЛЬЗУЮЩЕЙ ЛИНЕЙНОЕ 
ЗОНДИРОВАНИЕ 

На этой диаграмме 
демонстрируется процесс 
удаления X из таблицы , 
показанной на рис . 14. 7. Во 
второй строке показан 
результат простого удаления 
X из таблицы , что 
неприемлемо, поскольку Ми Р 
отрезаются от своих хеш- 
позиций пустой позицией, 
оставленной ключом X. 
Поэтому ключи М, Б, Ни Р 
(расположенные справа от X в 
этом же кластере) повторно 
вставляются в указанном 
порядке с использованием хеш- 
значений, указанных вверху , и с 
разрешением конфликтов с 
помощью линейного 
зондирования. М заполняет 
свободное место, оставленное 
ключом X, затем 8 и Н 
вставляются в таблицу, не 
вызывая конфликтов, а затем 
Р вставляется в позицию 2. 
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чаев процесс потребует лишь нескольких операций повторного хеширования. Другой 
способ реализации удаления — замена удаленного ключа служебным ключом, кото- 
рый может служить заполнителем для поиска, но может быть определен и повторно 
использоваться для вставок (см. упражнение 14.33). 

Программа 14.5 Удаление из хеш-таблицы, использующей линейное зондирование 

Для удаления элемента с заданным ключом мы выполняем его поиск и заменяем 
его элементом пиІІІІет. Затем необходимо внести изменения на случай, если ка- 
кой-либо элемент, расположенный справа от теперь незанятой позиции, помеща- 
ется в эту позицию или левее нее, поскольку свободная позиция приводила бы к 
прерыванию поиска такого элемента. Поэтому выполняется повторная вставка всех 
элементов, которые располагаются в одном кластере с удаленным элементом и 
правее него. Поскольку таблица заполнена менее чем на половину, в среднем ко- 
личество повторно вставляемых элементов будет мало. 

ѵоісі гешоѵе(Іі:ет х) 

{ іпѣ і = ЬазЬ (х.кеу () , М) , 3 ; 

ѵгЬіІе ( ! зЪ [і] . пиіі ( ) ) 

(х.кеу () == з+[і].кеу()) Ьгеак; 
еізе і = (і+1) % М; 

НЕ (зЪ [і] .пиіі () ) геѣигп; 
з-Ь[і] = пиІШеш; N — ; 

іог (з = і+1; ! 31 [ 3 ] . пиіі () ; 3 = (з+1) % М, И--) 

{ І+ет ѵ = з+[з]; 5 ѣ[з] = пиІІІ-Ьет; іпзегі: (ѵ) ; } 

} 


Упражнения 

> 14.24 Какое время может потребоваться в худшем случае для вставки N ключей в 
первоначально пустую таблицу при использовании линейного зондирования? 

> 14.25 Приведите содержимое хеш-таблицы, образованной в результате вставки 
элементов с ключами ЕА8V^^ТIОNв указанном порядке в первоначаль- 
но пустую таблицу размером М — 16 при использовании линейного зондирования. 
Используйте хеш-функцию 11к тосі Мдля преобразования к ~ той буквы алфави- 
та в индекс таблицы. 

14.26 Выполните упражнение 14.25 для М — 10. 

о 14.27 Создайте программу, которая вставляет 10 5 случайных неотрицательных чи- 
сел, меньших чем ІО 6 , в таблицу размером 10 5 , использующую линейное зондиро- 
вание. Программа должна в графическом виде выводить количество зондирова- 
ний, используемых для каждой из 10 3 последовательных вставок. 

14.28 Создайте программу, которая вставляет N/2 случайных целых чисел в таб- 
лицу размером УѴ, использующую линейное зондирование, а затем на основании 
длин кластеров вычисляет средние затраты на обнаружение промаха при поиске 
в результирующей таблице, для N = 10 3 , ІО 4 , 10 5 и ІО 6 . 

14.29 Создайте программу, которая вставляет УѴ/2 случайных целых чисел в таб- 
лицу размером ѵѴ, использующую линейное зондирование, а затем вычисляет сред- 
ние затраты на обнаружение попадания при поиске в результирующей таблице, для 
N = 10 3 , ІО 4 , 10 5 и ІО 6 . В конце не выполняйте поиск всех ключей (отслеживайте 
затраты на построение таблицы). 
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• 14.30 Определите экспериментальным путем, изменяются ли средние затраты на 
обнаружение попаданий и промахов при поиске в случае выполнения длинной 
последовательности чередующихся случайных вставок и удалений с помощью про- 
грамм 14.4 и 14.5 в хеш-таблице размером 2УѴ, содержащей N ключей, для N = 10, 
100 и 1000 и до ІѴ 2 пар удалений-вставок для каждого значения N. 

14.4 Двойное хеширование 

Основной принцип линейного зондирования (а, в действительности, и любого ме- 
тода хеширования) — обеспечение гарантии того, что при поиске конкретного клю- 
ча выполняется поиск каждого ключа, который отображается тем же адресом в таб- 
лице (в частности, самого ключа, если он присутствует в таблице). Однако, как 
правило, при использовании схемы с открытой адресацией другие ключи также иссле- 
дуются, особенно, когда таблица начинает приближаться к заполненному состоянию. 
В примере, приведенном на рис. 14.7, поиск ключа N сопряжен с просмотром клю- 
чей С, Е, К и I, ни один из которых не имеет такого же хеш-значения. Хуже того, 
вставка ключа с одним хеш-значением может существенно увеличить время поиска 
ключей с другими хеш-значениями: на рис. 14.7 вставка ключа М приводит к увели- 
чению времени поиска для позиций 1 — 12 и 0—1. Это явление называется кластери- 
зацией, поскольку оно связано с процессом образования кластеров. Оно может зна- 
чительно замедлять линейное зондирование для почти заполненных таблиц. 

К счастью, существует простой способ избежать возникновения проблемы класте- 
ризации — двойное хеширование. Основная стратегия остается той же, что и при выпол- 
нении линейного зондирования. Единственное различие состоит в том, что вместо 
исследования кащщй позиции таблицы, следующей за конфликтной, мы используем 
вторую хеш-функцию для получения постоянного шага, который будет использоваться 
для последовательности зондирования. Реализация метода приведена в программе 14.6. 

Программа 14.6 Двойное хеширование 

Двойное хеширование аналогично линейному зондированию, за исключением того, 
что вторая хеш-функция используется для определения шага поиска, который будет 
использоваться после обнаружения каждого конфликта. Шаг поиска должен быть 
ненулевым, а размер таблицы и шаг поиска должны быть взаимно простыми чис- 
лами. Функция гетоѵе для линейного зондирования (см. программу 14.5) не рабо- 
тает с двойным хешированием, поскольку любой ключ может присутствовать во мно- 
жестве различных последовательностей зондирования. 

ѵоісі іпзег-Ь (І'Ьет і'Ьет) 

{ Кеу ѵ = і+ет.кеу() ; 
іп-Ь і = ЬазЬ(ѵ, М) , к = ЬазЪ-Ьѵо (ѵ, М) ; 
ѵгЫІе ( ! з1[і] . пиіі () ) і = (і+к) % М; 

зѣЕі] = і-Ьеш; N4-+; 

1 

І-Ьет зеагсЬ (Кеу ѵ) 

{ іп-Ь і = ЬазЬ(ѵ, М) , к = ЬазЪ'Ьѵо (ѵ , М) ; 
ѵЬіІе (!зЪ[і] . пиіі () ) 

(ѵ = з-Ь [і] .кеу () ) геѣигп з-Ь[і] ; 
ѳізе і = (і+к) % М; 

ге'Ьигп пиШѣет; 

1 
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Выбор второй хеш-функции требует определен- 
ной осторожности, поскольку в противном случае 
программа может вообще не работать. Во-первых, 
необходимо исключить случай, когда вторая хеш- 
функция дает значение, равное 0, поскольку это 
приводило бы к бесконечному циклу при первом 
же конфликте. Во-вторых, важно, чтобы значение 
второй хеш-функции и размер таблицы были вза- 
имно простыми числами, поскольку в противном 
случае некоторые из последовательностей зондиро- 
вания могли бы оказаться очень короткими (рас- 
смотрите для примера случай, когда размер табли- 
цы вдвое больше значения второй хеш-функции). 
Один из способов претворения подобной политики 
в жизнь — выбор в качестве М простого значения 
и выбор второй хеш-функции, возвращающей зна- 
чения, которые меньше М. На практике простой 
второй хеш-функции наподобие 

іпііпе іпѣ ЬазЬѣко (Кеу ѵ) 

{ ге-Ьигп (ѵ % 97) +1; } 

будет достаточно для многих хеш-функций, когда 
размер таблицы не слишком мал. Кроме того, лю- 
бое снижение эффективности, вызываемое данным 
упрощением, скорее всего, будет мало заметно на 
практике. Если таблица очень велика или мало за- 
полнена, сам размер таблицы не обязательно дол- 
жен быть простым числом, поскольку для каждого 
поиска будет использоваться лишь несколько зон- 
дирования (хотя, при использовании этого упроще- 
ния, для предотвращения бесконечного цикла мо- 
жет потребоваться выполнение проверки для 
прерывания длинных поисков (см. упражнение 
14.38)). 

На рис. 14.9 показан процесс построения не- 
большой таблицы методом двойного хеширования; 
из рис. 14.10 видно, что двойное хеширование при- 
водит к образованию значительно меньшего коли- 
чества кластеров (которые вследствие этого значи- 
тельно короче), чем в результате линейного 
зондирования. 
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РИСУНОК 14.9 ДВОЙНОЕ 
ХЕШИРОВАНИЕ 

На этой диаграмме показан процесс 
вставки ключей А 8 Е К С Н I N С 
ХМРЬ в первоначально пустую 
хеш-таблицу с открытой адресацией 
с использованием хеш-значений, 
приведенных вверху, и разрешением 
конфликтов за счет применения 
двойного хеширования. Первое и 
второе хеш-значения каждого ключа 
отображаются в двух строках под 
этим ключом. Как и на рис. 14. 7, 
зондируемые позиции таблицы не 
затенены. А помещается в позицию 
1, затем 8 — в позицию 3, Е — в 
позицию 9, как и на рис. 14. 7, но 
ключ К помещается в позицию 1 
после возникновения конфликта в 
позиции 9, причем второе хеш- 
значение этого ключа, равное 5, 
используется в качестве шага 
зондирования после возникновения 
конфликта. Аналогично, ключ Р 
помещается в позицию 6 при 
заключительной вставке после 
возникновения конфликтов в 
позициях 8, 12, 3, 7, 11 и 2 при 
использовании его второго хеш- 
значения, равного 4, как шага 
зондирования. 
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Лемма 14.4 При разрешении конфликтов с помощью двойного хеширования среднее ко- 
личество зондирований, необходимых для выполнения поиска в хеш-таблице размером М, 
содержащей N = аМ ключей , равно 


I 

а 





1-а 


для обнаружения попаданий и промахов , соответственно. 

Эти формулы — результат глубокого математического анализа, выполненного Гю- 
иба (СиіЬаз) и Шемереди (Зхетегесіі) {см. раздел ссылок). Доказательство основы- 
вается на том, что двойное хеширование почти эквивалентно более сложному ал- 
горитму случайного хеширования , при котором используется зависящая от ключей 
последовательность позиций зондирования, обеспечивающая равную вероятность 
попадания каждого зондирования в каждую позицию таблицы. По многим причи- 
нам этот алгоритм — всего лишь аппроксимация двойного хеширования: напри- 
мер, очень трудно гарантировать, чтобы при двойном хешировании каждая пози- 
ция таблицы проверялась хотя бы один раз, но при случайном хешировании одна 
и та же позиция таблицы может проверяться более одного раза. Тем не менее, для 
разреженных таблиц вероятность возникновения конфликтов при использовании 
обоих методов одинакова. Интерес представляют оба метода: двойное хеширова- 
ние легко реализовать, в то время как случайное хеширование легко анализиро- 
вать. 

■ вшЛш швл іі А *ІЛ Д ям иЛЬши! Імш мААі яХіяі іЬнвніі Л» ш ■ ЛЛт іі «А ІмЛІМяАі А ІА I I ■ I мім Л ЛАМА 





РИСУНОК 14.10 КЛАСТЕРИЗАЦИЯ 

На этих диаграммах показано размещение записей при их вставке в хеш-таблицу с использованием 
линейного зондирования (рисунок в центре) и двойного хеширования (рисунок внизу), при 
распределении ключей, показанном на верхней диаграмме. Каждая строка — результат вставки 10 
записей. По мере заполнения таблицы записи объединяются в кластеры , разделенные пустыми 
позициями таблицы. Длинные кластеры нежелательны , поскольку средние затраты на поиски одного 
ключа в кластере пропорциональны длине кластера. При использовании линейного зондирования чем 
длиннее кластеры, тем более вероятно увеличение их длины, поэтому по мере заполнения таблицы 
несколько длинных кластеров оказываются доминирующими. При использовании двойного 
хеширования этот эффект значительно менее выражен и кластеры остаются сравнительно 
короткими. 
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Средние затраты на обнаружение промаха при поиске для случайного хеширова- 
ния определяются равенством 



УѴ (/Г 

м [м 



1 

' 1-(Л Г/М) 


1 


1 -а 


Выражение слева — сумма вероятностей использования для обнаружения прома- 
хов более к зондирований, при к = 0, 1,2, ... (которая на основании элементар- 
ной теории вероятностей равна средней вероятности). При поиске всегда исполь- 
зуется одно зондирование, затем с вероятностью (УѴ/Л/) 2 требуется второе 
зондирование и т.д. Эту же формулу можно использовать для вычисления следу- 
ющего приближенного значения средней стоимости попадания при поиске в таб- 
лице, содержащей N ключей: 

\_( і і і ' 

N I 1-(1/ЛУ) 1-(2 / М) 1-((УѴ-1)/ЛУ) ’ 


Вероятность попадания одинакова для всех ключей в таблице; затраты на отыска- 
ние ключа равны затратам на его вставку, а затраты на вставку у-го ключа в таб- 
лицу равны затратам на обнаружение промаха в таблице, содержащей у — 1 ключ, 
следовательно, эта формула определяет среднее значение этих затрат. Теперь мож- 
но упростить и вычислить эту сумму, умножив числители и знаменатели всех дро- 
бей на М : 


1 (, м м М \ 

— ] _| 1 1- -I 

УѴ( М-1 М-2 ' Л/-УѴ + 1, 


и выполнив дальнейшее упрощение, получаем 




( 1 ^ 


^ 1 -а 


5 



поскольку Н м ~ 1п М. 

Точная взаимосвязь между производительностью двойного хеширования и идеаль- 
ным случаем случайного хеширования, которая была установлена Гюиба и Шемереди 
— асимптотический результат, который не обязательно должен быть справедлив для 
используемых на практике размеров таблиц; более того, полученные результаты ос- 
новываются на предположении, что хеш-функции возвращают случайные значения. 
Тем не менее, асимптотические формулы, приведенные в лемме 14.5, на практике 
достаточно точно определяют производительность двойного хеширования, даже при 
использовании такой просто вычисляемой второй хеш-функции, как (ѵ % 97)+1. Как 
и в случае соответствующих формул для линейного зондирования, эти формулы стре- 
мятся к бесконечности при приближении значения а к 1, но это происходит значи- 
тельно медленнее. 

Различие между линейным зондированием и двойным хешированием наглядно 
иллюстрируется на рис. 14.11. Двойное хеширование и линейное зондирование име- 
ют одинаковую производительность для разреженных таблиц, но при использовании 
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двойного хеширования можно допустить значительно 
большую степень заполнения таблицы, чем при ис- 
пользовании линейного зондирования, прежде чем 
производительность заметно снизится. В следующей 
таблице приведено ожидаемое количество зондирова- 
ний для обнаружения попаданий и промахов при ис- 
пользовании двойного хеширования: 


коэффициент загрузки (а) 

1/2 

2/3 

3/4 

9/10 

попадание при поиске 

1.4 

1.6 

1.8 

2.6 

промах при поиске 

1.5 

2.0 

3.0 

5.5 


Для обнаружения промахов при поиске всегда тре- 
буются большие затраты, чем для обнаружения попада- 
ний, но для обнаружения и тех и других в среднем тре- 
буется лишь несколько зондирований даже в таблице, 
заполненной на девять десятых. 

Если взглянуть на эти результаты под другим уг- 
лом, можно заключить, что для получения такого же 
среднего времени поиска двойное хеширование позво- 
ляет использовать меньшие таблицы, чем потребова- 
лось бы при использовании линейного зондирования. 

Лемма 14.5 Сохраняя коэффициент загрузки меньшим, 
нем \~\ / 4і для линейного зондирования, и меньшим, 
чем \ — \/1 для двойного хеширования, можно обеспе- 
чить, чтобы в среднем для выполнения всех поисков 
требовалось менее і зондирований. 

Установите значения выражений для промахов при 
поиске равными 1 и решите уравнения относитель- 
но а. 

Например, для обеспечения, чтобы среднее количе- 
ство зондирований для поиска было меньшим 10, не- 
обходимо сохранять таблицу пустой по меньшей мере 
на 32 процента при использовании линейного зонди- 
рования, но лишь на 10 процентов при использовании 
двойного хеширования. При необходимости обработ- 
ки 10 5 элементов, чтобы иметь возможность выпол- 
нить безрезультатный поиск менее чем за 10 зондиро- 
ваний, требуется свободное пространство всего для ІО 4 
дополнительных элементов. Для сравнения: при ис- 
пользовании раздельного связывания потребовалась 
бы дополнительная память для более чем 10 5 связей, а 
при использовании деревьев бинарного поиска потре- 
бовался бы вдвое больший объем памяти. 




РИСУНОК 14.11 ЗАТРАТЫ НА 
ВЫПОЛНЕНИЕ ПОИСКА С 
ИСПОЛЬЗОВАНИЕМ ОТКРЫТОЙ 
АДРЕСАЦИИ 

На этих графиках показаны 
затраты на построение хеш- 
таблицы, размер которой равен 
1000, путем вставки ключей в 
первоначально пустую таблицу с 
использованием линейного 
зондирования (вверху) и двойного 
хеширования (внизу). Каждый 
вертикальный столбец 
представляет затраты на 
вставку 20 ключей. Серые кривые 
представляют теоретически 
предсказанные затраты (см. 
леммы 14.4 и 14.5). 
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Метод реализации операции гетоѵе , приведенный в программе 14.5 (повторное 
хеширование ключей, которые могут иметь путь поиска, содержащий удаляемый эле- 
мент), не годится для двойного хеширования, поскольку удаленный ключ может при- 
сутствовать во множестве различных последовательностей зондирования, затрагива- 
ющих ключи, разбросанные по всей таблице. Поэтому необходимо прибегнуть к 
другому методу, рассмотренному в конце раздела 12.3: удаленный элемент заменя- 
ется служебным элементом, помечающим позицию таблицы как занятую, но не со- 
ответствующим ни одному из ключей (см. упражнение 14.33). 

Подобно линейному зондированию, двойное хеширование — неподходящее осно- 
вание для реализации полнофункционального АТД таблицы символов, в котором 
необходимо поддерживать операции зогі или зеіесі. 

Упражнения 

> 14.31 Приведите содержимое хеш-таблицы, образованной в результате вставки 
элементов с ключами ЕА8У011ТІС^в указанном порядке в первоначаль- 
но пустую таблицу размером М = 16 при использовании двойного хеширования. 
Воспользуйтесь хеш-функцией 11/г той М для первоначального зондирования и 
второй хеш-функцией ( к той 3) + 1 для шага поиска (когда ключ — к- тая буква 
алфавита). 

> 14.32 Выполните упражнение 14.31 для М = 10. 

14.33 Реализуйте удаление для двойного хеширования с использованием служеб- 
ного элемента. 

14.34 Измените решение упражнения 14.27, чтобы в нем использовалось двойное 
хеширование. 

14.35 Измените решение упражнения 14.28, чтобы в нем использовалось двойное 
хеширование. 

14.36 Измените решение упражнения 14.29, чтобы в нем использовалось двойное 
хеширование. 

о 14.37 Реализуйте алгоритм, который аппроксимирует случайное хеширование, 
предоставляя ключ в качестве исходного значения для встроенного генератора слу- 
чайных чисел (как в программе 14.2). 

14.38 Предположите, что таблица, размер которой равен ІО 6 , заполнена наполо- 
вину, причем занятые позиции распределены случайным образом. Вычислите ве- 
роятность того, что все позиции, индексы которых кратны 100, заняты. 

о 14.39 Предположите, что в коде реализации двойного хеширования присутствует 
ошибка, приводящая к тому, что одна или обе хеш-функции всегда возвращают 
одно и то же значение (не 0). Опишите, что происходит в каждой из следующих 
ситуаций: (/) когда первая функция неверна, (//) когда вторая функция неверна, 
(ш) когда обе функции неверны. 
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14.5 Динамические хеш-таблицы 

С увеличением количества ключей в хеш-таблице производительность поиска 
уменьшается. При использовании раздельного связывания время поиска увеличива- 
ется постепенно — когда количество ключей в таблице удваивается, время поиска уд- 
ваивается. Это же справедливо по отношению к таким методам с открытой адреса- 
цией, как линейное зондирование и двойное хеширование для разреженных таблиц, 
но по мере заполнения таблицы затраты возрастают коренным образом и, что гораз- 
до хуже, наступает момент, когда никакие дополнительные ключи вообще не могут 
быть вставлены. Эта ситуация отличается от деревьев поиска, в которых рост проис- 
ходит естественным образом. Например, в КВ-дереве затраты на поиск возрастают 
лишь несущественно (на одно сравнение) при каждом удвоении количества узлов в 
дереве. 

Один из способов обеспечения роста в хеш-таблицах — удвоение размера табли- 
цы, когда она начинает заполняться. Удвоение размера таблицы — дорогостоящая 
операция, поскольку все элементы в таблице должны быть вставлены повторно, од- 
нако она выполняется нечасто. Программа 14.7 — реализация роста путем удвоения 
при использовании линейного зондирования. Пример показан на рис. 14.12. 
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РИСУНОК 14.12 ДИНАМИЧЕСКОЕ РАСШИРЕНИЕ ХЕШ-ТАБЛИЦЫ 

На этой диаграмме продемонстрирован процесс вставки ключей А 8 Е К СНІХСХМРЬв 
динамическую хеш-таблицу, которая расширяется путем удвоения хеш-значений, приведенных в 
верхней части рисунка, и разрешения конфликтов с помощью линейного зондирования. В четырех 
строках под ключами приводятся хеш-значения для размера таблицы равного 4, 8, 16 и 32. 

Начальный размер таблицы равен 4, затем он удваивается до 8 для Е, до 16 для С и до 32 для С. При 
каждом удвоении размера таблицы для всех ключей выполняется повторное хеширование и повторная 
вставка. Все вставки выполняются в разреженные таблицы (менее чем на одну четверть для 
повторной вставки и от одной четверти до одной второй в остальных случаях), поэтому возникает 
мало конфликтов. 
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Это же решение работает и для двойного хеширования, а основная идея приме- 
нима и для раздельного связывания (см. упражнение 14.46). Каждый раз когда таб- 
лица заполняется более чем на половину, она расширяется путем удвоения ее разме- 
ра. После первого расширения доля заполнения таблицы всегда составляет от одной 
четвертой до одной второй, поэтому в среднем затраты на поиск составляют менее 
трех зондирований. Более того, хотя операция повторного построения таблицы яв- 
ляется дорогостоящей, она выполняется столь редко, что ее стоимость представляет 
лишь постоянную долю общих затрат на построение таблицы. 

Программа 14.7 Динамическая вставка в хеш-таблицу (для линейного зондирования) 

Эта реализация операции іпаегі для линейного зондирования (см. программу 14.4) 
обрабатывает произвольное количество ключей, удваивая размер таблицы при каж- 
дом заполнении таблицы наполовину (такой же подход может использоваться для 
двойного хеширования или раздельного связывания). Удвоение требует распреде- 
ления памяти для новой таблицы, повторного хеширования всех ключей в новую таб- 
лицу, а затем освобождения памяти, занимаемой старой таблицей. Функция-член 
іпіі используется для построения или повторного построения таблицы, заполненной 
нулевыми элементами указанных размеров: она реализована так же, как конструк- 
тор 5Т в программе 14.4, поэтому ее код опущен. 

ргіѵаѣе : 
ѵоісі ехрапсі ( ) 

{ Нет *Ь = зѣ; 
іпИ (М+М) ; 

^ог (іпѣ і « 0; і < М/2; і++) 

И ( Н[і] .пиіі () ) іпвеИ (Ъ[і] ) ; 
сіеіеѣе Ь; 

} 

риЫіс: 

5Т (іп'Ь тахИ) 

{ іпИ (4) ; } 

ѵоісі іпзеН (Нет Пет) 

{ іпѣ і = ЬазЬ (Нет. кеу () , М) ; 

кЫІе ( ! зЪ[і] .пиіі () ) і = (і+1) % М; 
з*Ь[і] в Нет; 

И (N+4- >= М/2) ехрапсі () ; 

} 


Эту же концепцию можно выразить, говоря, что затраты на одну вставку меньше 
четырех зондирований. Это утверждение не равносильно утверждению, что для каж- 
дой вставки в среднем требуется менее четырех зондирований; действительно, мы 
знаем, что для тех вставок, которые приводят к удвоению размера таблицы, будет 
требоваться большое количество зондирований. Это рассуждение — простой пример 
амортизационного анализа : для этого алгоритма нельзя гарантировать быстрое выпол- 
нение всех и каждой операции, но можно гарантировать, что средние затраты на 
одну операцию будут низкими. 

Хотя общие затраты низки, профиль производительности вставок неравномерен: 
большинство операций выполняется исключительно быстро, но для определенных 
редко выполняемых операций требуется почти столько же времени, сколько ранее 
было затрачено на построение всей таблицы. При увеличении размера таблицы от 1 
тысячи до 1 миллиона ключей это замедление будет происходить около 10 раз. По- 
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добное поведение приемлемо во многих приложениях, но может оказаться недопу- 
стимым, когда абсолютные гарантии производительности желательны или обязатель- 
ны. Например, в то время как банк или авиакомпания могут допустить, чтобы кли- 
енту приходилось ожидать дополнительное время при выполнении 10 транзакций из 
1 миллиона, долгое ожидание может иметь катастрофические последствия в таких 
приложениях, как онлайновая система обработки финансовых транзакций, или сис- 
тема управления воздушным движением. 

Если требуется поддерживать операцию гетоѵе абстрактного типа данных, может 
иметь смысл сужать таблицу, вдвое уменьшая ее размер при уменьшении количества 
ее ключей (см. упражнение 14.44). Но это требует одной оговорки: порог сужения 
должен отличаться от порога увеличения, поскольку в противном случае небольшое 
количество операций іпзегі и гетоѵе могло бы приводить к последовательности опе- 
раций удвоения и уменьшения размера вдвое даже для очень больших таблиц. 

Лемма 14.6 Последовательность операций зеагсН, іпзеіі и деіеіе в таблицах символов 
может быть выполнена за время, которое пропорционально I, и при использовании объе- 
ма памяти, не превышающего числа ключей в таблице, умноженного на постоянный ко- 
эффициент. 

Линейное зондирование с увеличением путем удвоения используется во всех слу- 
чаях, когда операция іпзегі приводит к тому, что количество ключей в таблице ста- 
новится равным половине размера таблицы. Сужение путем уменьшения разме- 
ра таблицы вдвое используется, когда операция гетоѵе приводит к тому, что 
количество ключей в таблице становится равным одной восьмой размера таблицы. 
В обоих случаях после того, как размер таблицы изменен до значения УѴ, она со- 
держит N/4 ключей. После этого должно быть выполнено УѴ/4 операций іпзегі, 
прежде чем размер таблицы будет снова удвоен (за счет повторной вставки УѴ/2 
ключей в таблицу размера 2УѴ), и УѴ/8 операций гетоѵе , прежде чем размер табли- 
цы будет снова вдвое уменьшен (за счет повторной вставки УѴ/8 ключей в табли- 
цу размера N/2). В обоих случаях количество повторно вставляемых ключей не 
превышает двукратного количества операций, которые были выполнены для ини- 
циализации перестройки таблицы, поэтому общие затраты остаются линейными. 
Более того, таблица всегда заполнена от одной восьмой до одной четверти (см. 
рис. 14.13), следовательно, в соответствие с леммой 14.4 среднее количество зон- 
дирований для каждой операции меньше 3. 

Этот метод подходит для использования в реализации таблицы символов, предназ- 
наченной для библиотеки общего назначения, когда последовательности применения 
операций непредсказуемы, поскольку позволяет приемлемым образом обрабатывать 
таблицы любых размеров. Основной его недостаток — затраты на повторное хеши- 
рование и распределение памяти при расширении и сжатии таблицы. В типичном слу- 
чае, когда основными выполняемыми операциями являются операции поиска, гаран- 
тия малого заполнения таблицы обеспечивает прекрасную производительность. В 
главе 16 будет рассмотрен другой подход, позволяющий избежать повторного хеши- 
рования и подходящий для очень больших таблиц внешнего поиска. 
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Упражнения 

> 14.40 Приведите содержимое хеш-таблицы, образованной в результате вставки 
элементов с ключами ЕА8У^^ТIОNв указанном порядке в первоначаль- 
но пустую таблицу, имевшую начальный размер М = 4, которая увеличивается 
вдвое при ее заполнении наполовину, при разрешении конфликтов методом ли- 
нейного зондирования. Воспользуйтесь хеш-функцией 11 к той Мдля преобразо- 
вания к - той буквы алфавита в индекс таблицы. 

14.41 Не было бы ли более экономичным увеличивать хеш-таблицу, утраивая 
(а не удваивая) ее размер при заполнении таблицы наполовину? 

14.42 Не было бы ли более экономичным увеличивать хеш-таблицу, утраивая ее 
размер при заполнении таблицы на одну треть (вместо того, чтобы удваивать раз- 
мер таблицы при ее заполнении наполовину)? 

14.43 Не было бы ли более экономичным увеличивать хеш-таблицу, удваивая ее 
размер при заполнении таблицы на три четверти (а не наполовину)? 

14.44 Добавьте в программу 14.7 функцию гетоѵе , которая удаляет элемент, как 
в программе 14.4, но затем сжимает таблицу, вдвое уменьшая ее размер, если пос- 
ле удаления таблица остается пустой на семь восьмых. 

о 14.45 Реализуйте версию программы 14.7 для раздельного связывания, которая в 10 
раз увеличивает размер таблицы каждый раз, когда средняя длина списка равна 10. 

14.46 Измените программу 14.7 и реализацию, созданную в упражнении 14.44, что- 
бы в них использовалось двойное хеширование с "ленивым" удалением (см. упраж- 
нение 14.33). Обеспечьте, чтобы программа учитывала количество фиктивных 
объектов и пустых позиций при принятии решения о необходимости расширения 
или сужения таблицы. 

14.47 Разработайте реализацию таблицы символов с использованием линейного 
зондирования и динамических таблиц, которая содержит деструктор, конструктор 
копирования и перегруженную операцию присваивания и поддерживает операции 
сотігисі, соипі, зеагск, ітегі , гетоѵе и уо/я для АТД первого класса таблицы симво- 
лов при поддержке дескрипторов клиента (см. упражнения 12.6 и 12.7). 

14.6 Перспективы 

Как было показано в ходе рассмотрения методов хеширования, выбор метода, 
который наиболее подходит для конкретного приложения, зависит от множества раз- 
личных факторов. Все методы могут уменьшать время выполнения функций зеагск и 
ітегі , делая его постоянным, и все методы находят применение в широком множе- 
стве приложений. Обобщая, можно охарактеризовать три основных метода (линей- 
ное зондирование, двойное хеширование и раздельное связывание) следующим об- 
разом: линейное зондирование является самым быстрым из этих трех методов (при 
наличии достаточного объема памяти, чтобы таблица была разреженной), двойное 
хеширование позволяет наиболее эффективно использовать память (но требует до- 
полнительных затрат времени для вычисления второй хеш-функции), а раздельное 
связывание проще всего реализовать и применять (при условии наличия хорошего 
средства распределения памяти). Экспериментальные данные и комментарии, харак- 
теризующие производительность алгоритмов, приведены в табл. 14.1. 
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Таблица 14.1 Данные экспериментального исследования реализаций хеш-таблиц 

Эти относительные значения времени построения и поиска в таблицах символов, 
состоящих из случайных последовательностей 32-разрядных целых чисел, подтвер- 
ждают, что для ключей, которые легко поддаются хешированию, хеширование рабо- 
тает значительно быстрее, чем поиск с использованием дерева. Двойное хеширо- 
вание работает медленнее, чем раздельное связывание и линейное зондирование 
для разреженных таблиц (из-за необходимости вычисления второй хеш-функции), но 
значительно быстрее линейного зондирования, когда таблица заполняется; кроме 
того, этот метод — единственный, который может обеспечить быстрый поиск с ис- 
пользованием лишь небольшого дополнительного объема памяти. Динамические 
хеш-таблицы, построенные с использованием линейного зондирования и расшире- 
ния путем удвоения, требуют больших затрат времени при конструировании, чем 
другие хеш-таблицы, из-за необходимости распределения памяти и повторного хе- 
ширования, но несомненно обеспечивают наиболее быстрый поиск. Этот метод яв- 
ляется предпочтительным, когда чаще всего выполняется поиск, и когда заранее 
нельзя точно предвидеть количество ключей. 

конструирование промахи при поиске 
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Обозначения: 












В ВВ-дерево бинарного поиска (программы 12.8 и 13 6) 

Н Раздельное связывание (программа 14.3 при размере таблицы, равном 20000) 

Р Линейное зондирование (программа 14.4 при размере таблицы, равном 200000) 
О Двойное хеширование (программа 14.6 при размере таблицы, равном 200000) 

Р Линейное зондирование с расширением путем удвоения (программа 14.7) 


Выбор между линейным зондированием и двойным хешированием зависит прежде 
всего от затрат на вычисление хеш-функции и от коэффициента загрузки таблицы. 
Для разреженных таблиц (для малых значений коэффициента а) оба метода исполь- 
зуют лишь несколько зондирований, но для двойного хеширования может требовать- 
ся больше времени, поскольку необходимо вычислять две хеш-функции для длинных 
ключей. По мере того как значение б приближается к 1, двойное хеширование начи- 
нает существенно превосходить по производительности линейное зондирование, как 
видно из табл. 14.1. 
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Сравнение линейного зондирования и двойного хеширования с раздельным свя- 
зыванием выполнить сложнее, поскольку необходимо точно учитывать используемый 
объем памяти. Раздельное связывание использует дополнительный объем памяти для 
связей; методы с открытой адресацией используют дополнительную память неявно 
внутри таблицы для завершения последовательностей зондирования. Следующий кон- 
кретный пример иллюстрирует ситуацию. Предположим, что имеется таблица М спис- 
ков, построенная при помощи раздельного связывания, что средняя длина списков 
равна 4, а каждый элемент и каждая связь занимают по одному машинному слову. 
Предположение, что элементы и ссылки занимают одинаковый объем памяти, оправ- 
дано во многих ситуациях, поскольку очень большие элементы будут заменены 
ссылками на них. В этом случае таблица занимает 9Л/слов в памяти (4Л/для элемен- 
тов и 5 М для связей), и для выполнения поиска в среднем требуется 2 зондирования. 
Но при линейном зондировании для 4 М элементов в таблице размером 9 М требует- 
ся всего (1 + 1/(1 ~4/9)) / 2 = 1.4 зондирований для обнаружения попадания при 
поиске — что на 30 процентов меньше, чем требуется для раздельного связывания 
при том же объеме используемой памяти; а при линейном зондировании для 4 М эле- 
ментов в таблице размером 6 М требуется 2 зондирования для обнаружения попада- 
ния при поиске (в среднем) и, следовательно, используется памяти на 33 процента 
меньше, чем при раздельном связывании при том же времени выполнения. Более 
того, для обеспечения увеличения таблицы при остающемся небольшим коэффици- 
енте ее загрузки можно использовать динамический метод, подобный реализованно- 
му в программе 14.7. 

Приведенные в предшествующем абзаце рассуждения показывают, что обычно 
выбор раздельного связывания вместо открытой адресации по соображениям произ- 
водительности не является вполне оправданным. Однако на практике раздельное свя- 
зывание с фиксированным значением М часто выбирают по ряду других причин: его 
легко реализовать (особенно операцию гето\ё)\ оно требует небольшого дополни- 
тельного объема памяти для элементов, которые имеют заранее выделенные поля 
связей, пригодные для использования таблицей символов и другими АТД, которые 
могут в них нуждаться; и, хотя его производительность снижается с увеличением ко- 
личества элементов в таблице, это снижение допустимо и происходит так, что вряд ли 
повредит приложению, поскольку производительность все же в М раз выше, чем про- 
изводительность последовательного поиска. 

Существует много других методов хеширования, которые находят применение в 
особых ситуациях. Хотя мы не можем останавливаться на этом подробно, все же крат- 
ко рассмотрим три примера, иллюстрирующие сущность специальных методов хеши- 
рования. 

Один класс методов перемещает элементы во время вставки при двойном хеши- 
ровании, делая успешный поиск более эффективным. Так, Брент (Вгепі) разработал 
метод, при использовании которого среднее время успешного поиска может ограни- 
чиваться константой даже в заполненной таблице (см. раздел ссылок). Такой метод 
может быть удобным в приложениях, в которых попадания при поиске — основная 
операция. 
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Другой метод, называемый упорядоченным хешированием (оЫегед НазНщ), использует 
упорядочение для уменьшения затрат на безрезультатный поиск при использовании 
линейного зондирования, приближая их к затратам на успешный поиск. В стандар- 
тном линейном зондировании поиск прекращается при обнаружении пустой позиции 
таблицы или элемента, ключ которого равен искомому; в упорядоченном хеширова- 
нии поиск прекращается при обнаружении ключа, который больше или равен иско- 
мому ключу (чтобы эта процедура работала, таблица должна конструироваться про- 
думанно) (см. раздел ссылок). Это усовершенствование путем ввода упорядочения в 
таблицу аналогично достигаемому эффекту от упорядочения списков при раздельном 
связывании. Этот метод предназначен для приложений, в которых преобладают про- 
махи при поиске. 

Таблица символов, в которой быстро происходит обнаружение промахов при по- 
иске и несколько медленнее — попаданий при поиске, может использоваться для ре- 
ализации словаря исключений (ехсерііоп (Іісііопагу) . Например, система текстовой обра- 
ботки может содержать алгоритм для разбиения слов на слоги, который успешно 
работает для большинства слов, но не работает в отдельных случаях (таких как 
"Ъігагге"). Скорее всего, лишь небольшое количество слов в очень большом докумен- 
те будет включено в словарь исключений, поэтому, скорее всего, почти все поиски 
будут завершаться промахами. 

Это — лишь некоторые примеры множества алгоритмических усовершенствова- 
ний, предложенных для хеширования. Многие из них представляют интерес и нахо- 
дят важные применения. Однако, как обычно, следует избегать опрометчивого при- 
менения усложненных методов, если только это не обусловлено серьезными 
причинами, а компромисс между производительностью и сложностью не проанали- 
зирован самым тщательным образом, поскольку раздельное связывание, линейное 
зондирование и двойное хеширование просты, эффективны и приемлемы для боль- 
шинства приложений. 

Задача реализации словаря исключений представляет собой пример приложения, в 
котором алгоритм можно слегка изменить для оптимизации производительности наи- 
более часто выполняемой операции — в данном случае обнаружения промаха при по- 
иске. Например, предположим, что имеется словарь исключений, состоящий из 1000 
элементов, 1 миллион элементов, которые необходимо искать в словаре, и ожидается, 
что буквально все поиски должны завершаться промахами. Эта ситуация могла бы 
возникнуть, если бы все элементы были исключениями языка или случайными 32- 
разрядными целыми числами. Один из подходов — хеширование всех слов, скажем, 
15-разрядными значениями (в этом случае размер таблицы составит около 2 16 ). 1000 
исключений занимают 1/64 часть таблицы и большинство из 1 миллиона поисков не- 
медленно завершаются промахами при обнаружении пустой позиции таблицы при 
первом же зондировании. Но если таблица содержит 32-разрядные слова, задачу мож- 
но выполнить значительно эффективней, преобразовав ее в таблицу исключительных 
разрядов и используя 20-разрядные хеш-значения. При промахе (как имеет место в 
большинстве случаев) поиск завершается в результате проверки одного разряда; в 
случае попадания при поиске требуется выполнения второй проверки в меньшей таб- 
лице. Исключения занимают 1/1000 часть таблицы; промахи при поиске — наиболее 
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вероятная операция; и задача выполняется путем 1 миллиона проверок непосред- 
ственно индексированных разрядов. Решение основывается на идее, что хеш-функ- 
ция создает короткий сертификат , представляющий ключ; это важная концепция, 
находящая применение и в приложениях, которые отличаются от реализаций таблиц 
символов. 

В качестве реализации таблиц символов хеширование предпочтительней структур 
бинарных деревьев, рассмотренных в главах 12 и 13, поскольку оно несколько про- 
ще и может обеспечить оптимальное (постоянное) время поиска, если ключи относят- 
ся к стандартному типу или достаточно просты, чтобы можно было быть уверенным 
в разработке хорошей хеш-функции для них. Преимущества структур бинарных де- 
ревьев по сравнению с хешированием заключается в том, что деревья основывают- 
ся на более простом абстрактном интерфейсе (разработка хеш-функции не требует- 
ся); деревья являются динамическими (никакая предварительная информация о 
количестве вставок не требуется); деревья могут обеспечить гарантированную произ- 
водительность в худшем случае (все элементы могут быть помещены в одну и ту же 
позицию даже при использовании наилучшего метода хеширования); и, наконец, де- 
ревья поддерживают более широкий диапазон операций (самое главное, операции зоП 
и зеіесі). Когда эти факторы не имеют значения, безусловно следует выбирать хеши- 
рование, только с одной важной оговоркой: когда ключи представляют собой длин- 
ные строки, их можно встроить в структуры данных, которые могут обеспечить ме- 
тоды поиска, работающие еще быстрее хеширования. Подобного рода структуры — 
тема главы 15. 

Упражнения 

> 14.48 Для 1 миллиона целочисленных ключей вычислите размер хеш-таблицы, при 
которой каждый из трех методов хеширования (раздельное связывание, линейное 
зондирование и двойное хеширование) использует для обнаружения промаха при 
вставке в среднем столько же сравнений с ключами, как и В8Т-деревья, подсчи- 
тывая вычисление хеш-функции как сравнение. 

> 14.49 Для 1 миллиона целочисленных ключей вычислите количество сравнений, 
выполняемых каждым из трех методов хеширования (раздельным связыванием, 
линейным зондированием и двойным хешированием) в среднем для обнаружения 
промаха при поиске, когда они всего могут использовать 3 миллиона слов памя- 
ти (как имело бы место в случае В8Т-деревьев). 

14.50 Реализуйте АТД таблицы символов, обеспечивающий быстрое обнаружение 
промаха при поиске , как описано в тексте, используя для второй проверки раздель- 
ное связывание. 


Поразрядный 

поиск 

В нескольких методах поиска обработка ведется за счет 
исследования ключей поиска по небольшим фрагмен- 
там за раз вместо того, чтобы на каждом шаге сравнивать 
полные значения ключей. Эти методы носят название по- 
разрядного поиска (гаШх-зеагсИ) и работают аналогично ме- 
тодам поразрядной сортировки, которые рассматривались 
в главе 10. Они удобны, когда фрагменты ключей поиска 
легкодоступны, и могут обеспечить эффективные реше- 
ния для множества реальных применений поиска. 

В данном случае применяется та же абстрактная мо- 
дель, которая использовалась в главе 10: в зависимости от 
контекста ключ может быть словом (последовательностью 
байтов фиксированной длины) или строкой (последова- 
тельностью байтов переменной длины). Ключи, являющи- 
еся словами, обрабатываются как числа, представленные в 
системе счисления с основанием Я при различных значе- 
ниях Я ( основания системы счисления ), причем действия 
выполняются над отдельными цифрами чисел. Строки в 
стиле С можно рассматривать как числа переменной дли- 
ны, ограничиваемые специальным символом, чтобы для 
ключей как фиксированной, так и переменной длины ал- 
горитмы могли основываться на абстрактной операции 
"извлечения /-той цифры из ключа", в том числе и когда 
ключ содержит менее / цифр. 

Принципиальные преимущества методов поразрядно- 
го поиска заключается в следующем: они обеспечивают 
приемлемую производительность для худшего случая без 
сложностей, присущих сбалансированным деревьям; они 
обеспечивают простой способ обработки ключей перемен- 
ной длины; некоторые из них позволяют экономить па- 
мять, сохраняя часть ключа внутри поисковой структуры; 
они могут обеспечить быстрый доступ к данным, конку- 
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рируя как с деревьями бинарного поиска (В$Т-деревьями), так и с хешированием. 
Недостатки этих методов связаны с тем, что некоторые методы могут приводить к 
неэффективному использованию памяти, а при поразрядной сортировке производи- 
тельность может снижаться в случае отсутствия эффективного доступа к байтам клю- 
чей. 

ВначаДе мы рассмотрим несколько методов поиска, которые работают посред- 
ством исследования ключей поиска по одному разряду, используя их для перемеще- 
ния по структурам бинарных деревьев. Мы рассмотрим ряд методов, каждый из ко- 
торых минимизирует проблемы, характерные для предыдущего, а в завершение 
познакомимся с остроумным методом, находящим применение в ряде приложений 
поиска. 


Затем мы исследуем обобщение К-путевых деревьев. Как и в предыдущем случае, 
мы рассмотрим ряд методов, представив в завершение гибкий и эффективный метод, 
который может поддерживать базовую реализацию таблицы символов и множество ее 
расширений. 

Обычно при поразрядном поиске вначале исследуют- 


ся старшие цифры ключей. Многие методы непосред- 


А 00001 


ственно соответствуют методам поразрядной сортировки 
"сначала по старшей цифре" (шов* $і§піГісаЩ бі^іі — М80) 
подобно тому, как поиск, основанный на В8Т-дереве, 
соответствует быстрой сортировке. В частности, мы рас- 
смотрим аналоги методов сортировки с линейной зависи- 
мостью времени выполнения, приведенных в главе 10 — 
методы поиска с линейной зависимостью времени выпол- 


5 10011 
Е 00101 
К 10010 
С 00011 
Н 01000 
I 01001 
N 01110 


нения, основанные на том же принципе. 

В конце главы приводится специальное приложение, в 
котором структуры поразрядного поиска задействуются в 
построении индексов для больших текстовых строк. Рас- 
смотренные в этой главе методы обеспечивают естествен- 


0 00111 
X 11000 
К 01101 
Р 10000 
Ь 01100 


ные решения для этого приложения и помогают заложить 


основу для рассмотрения более сложных задач обработки РИСУНОК 15.1 ДВОИЧНЫЕ 


строк, приведенных в части 5. 

15.1 Деревья цифрового поиска 


ПРЕДСТАВЛЕНИЯ 
ОДНОСИМВОЛЬНЫХ КЛЮЧЕЙ 

Подобно тому , как это было 
сделано в главе 10, в 


Простейший метод поразрядного поиска основан на 
использовании деревьев цифрового поиска (йщііаі зеагсН Ігееь 
— ИЗТ), на которые в дальнейшем будем ссылаться как 
на ОЗТ-деревья. Алгоритмы поиска и вставки аналогичны 
поиску в бинарном дереве, за исключением одного раз- 
личия: ветвление в дереве выполняется не в соответствии 
с результатом сравнения полных ключей, а в соответствии 
с выбранными разрядами ключа. На первом уровне ис- 
пользуется ведущий разряд; на втором уровне использу- 
ется разряд, следующий за ведущим, и т.д., пока не 


небольших примерах , 
приведенных на рисунках этой 
главы, 5-разрядное двоичное 
представление числа і 
используется для 
представления і-той буквы 
алфавита, как здесь 
продемонстрировано на 
примере нескольких ключей. 
Предполагается, что биты 
нумеруются слева направо от 
0 до 4. 
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встретится внешний узел. Программа 15.1 содержит реализацию операции поиска 
(зеагсИ); реализация операции вставки (іпзегі) аналогична. Вместо того чтобы для 
сравнения ключей использовать операцию <, мы исходим из предположения о нали- 
чии функции <Н§іі, обеспечивающей доступ к отдельным разрядам ключей. Этот код 
буквально совпадает с кодом реализации поиска в бинарном дереве (см. программу 
12.8), но, как будет показано, имеет существенно иные характеристики производи- 
тельности. 

Программа 15.1 Бинарное 05Т-дерево 

■ — I — ■' .И.— — I I ■ .1 ■ ■ I I I I ■ I I ■ — ■ — ■ — ■■■ .. . I — — — — 1 1 ■ 1 1 11 I II ■ II. ■ — ■■■■ — -■'■■■ » I — - 1 1 ■ " 1 

Чтобы разработать реализацию таблицы символов, в которой используются ЭВТ- 
деревья, мы изменили реализации операций зеагсіі и іпзегі в стандартном ВЗТ-де- 
реве (см. программу 12.8), что должно быть заметно в этом примере операции 
зеагЫ ?. Для принятия решения о том, следует ли выполнять перемещение влево или 
вправо, вместо сравнения полных ключей выполняется проверка единственного (ве- 
дущего) разряда ключа. Рекурсивные вызовы функции имеют третий аргумент, по- 
зволяющий смещать вправо позицию проверяемого разряда при перемещении вниз 
по дереву. Для проверки разрядов используется функция сіідіі, как было описано в 
разделе 10.1. Эти же изменения применяются к реализации операции іпзегі] в ос- 
тальном используется код программы 12.8. 


I -Ьеш зеагсЬК (Ііпк Ъ, Кеу ѵ, іпЪ сі) 

{ (Ь == 0) геЪигп пиПІіет; 

Щ (ѵ == Ь->і 1 ет.к 0 у () ) геѣигп Ь-^іЪет; 

±± (сііді-Ь(ѵ, сі) == 0) 

геЪшгп зеагсЬР. (Ь->1 , ѵ, сі+1) ; 
еізе геЪигп зеагсЬК (Ь->г , ѵ, сі+1) ; 

} 

риЫіс : 

Нет зеагсЬ(Кеу ѵ) 

{ геілігп зеагсЬК(Ьеасі, ѵ, 0) ; } 

В главе 10 было показано, что при использовании 
поразрядной сортировки особое внимание должно 
быть уделено совпадающим ключам; то же самое спра- 
ведливо и по отношению к поразрядному поиску. В 
этой главе предполагается, что все значения ключей в 
таблице символов являются различными. Это предполо- 
жение не ведет к нарушению общности, поскольку для 
подержания приложений, содержащих записи с дубли- 
рованными ключами, можно воспользоваться одним из 
методов, рассмотренных в разделе 12.1. При исследова- 
нии поразрядного поиска важно сосредоточиться на 
различных значениях ключей, поскольку значения 
ключей являются важными компонентами нескольких 
структур данных, которые рассматриваются в дальней- 
шем. 

На рис. 15.1 приведены двоичные представления 
однобуквенных ключей, используемых на остальных 
рисунках этой главы. На рис. 15.2 показан пример 



РИСУНОК 15.2 Р5Т-ДЕРЕВ0 И 
ВСТАВКА 

При выполнении безуспешного 
поиска ключа М=01101 в этом 
примере ВЗТ-дерева (вверху) мы 
перемещаемся влево от корня 
(поскольку первый разряд в 
двоичном представлении ключа 
содержит 0), а затем вправо 
(поскольку второй разряд 
содержит 1), затем вправо , 
влево и завершаем поиск на 
нулевой связи под ключом N. Для 
вставки ключа М (внизу) мы 
заменяем нулевую связь в месте 
завершения поиска связью с 
новым узлом у как это делается 
при вставке в В5Т -дерево. 
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вставки в 08Т-дерево, а на рис. 15.3 — процесс вставки 
ключей в первоначально пустое дерево. 

Разряды ключей управляют поиском и вставкой, но обра- 
тите внимание, что ОЗТ-деревья не обладают свойством упо- 
рядоченности, характерным для В8Т-деревьев. Другими сло- 
вами, ключи в узлах слева от данного не обязательно 
меньше, а ключи в узлах справа от данного не обязательно 
больше ключей данного узла, как это было бы в В8Т-дере- 
ве с различными ключами. Ключи слева от данного узла дей- 
ствительно меньше ключей справа от него — если узел на- 
ходится на уровне к , все они совпадают в первых к разрядах, 
но следующий разряд равен 0 для ключей слева и 1 для клю- 
чей справа — но сам ключ узла может быть наименьшим, 
наибольшим или любым в диапазоне всех ключей из подде- 
рева этого узла. 

08Т-деревья характеризуются тем, что каждый ключ раз- 
мещается где-то вдоль пути, определенного разрядами клю- 
ча (следующими слева направо). Этого свойства достаточно, 
чтобы реализации операций зеагск и ітегі в программе 15.1 
работали правильно. 

Предположим, что ключи — слова фиксированной дли- 
ны, каждое из которых состоит из \ѵ разрядов. Требование, 
чтобы ключи были различными, обусловливает, что N = 2 Ѵ , и 
обычно предполагается, что N значительно меньше 2”, по- 
скольку в противном случае имело бы смысл использовать 
поиск с индексированием по ключу (см. раздел 12.2). Этому 
условию соответствует множество реальных задач. Напри- 
мер, использование 08Т-деревьев вполне подходит для таб- 
лицы символов, содержащей вплоть до 10 5 записей с 32-раз- 
рядными ключами (но, скорее всего, не ІО 6 записей), или 
любое количество записей с 64-разрядными ключами. ОЗТ- 
деревья работают также и в случае ключей переменной дли- 
ны; отложим подробное рассмотрение этого случая до раз- 



РИСУНОК 15.3 
ПОСТРОЕНИЕ Р5Т-ДЕРЕВА 

На этой 

последовательности 
рисунков показан 
результат вставки ключей 
А8 Е К С Н I N С в 
первоначально пустое 
йЗТ-дерево. 


дела 15.2, где будет рассматриваться и ряд других альтернатив. 

Производительность для худшего случая деревьев, построенных по методу пораз- 


рядного поиска, значительно выше производительности для худшего случая В8Т-де- 


ревьев, если количество ключей велико, а длина ключей мала по сравнению с их ко- 
личеством. Вероятней всего, во многих приложениях (например, если ключи 
образованы случайными значениями разрядов) длина самого длинного пути в 08Т- 
дереве оказывается сравнительно небольшой. В частности, самый длинный путь ог- 
раничивается длиной самого длинного ключа; более того, если ключи имеют фикси- 
рованную длину, то время поиска ограничивается длиной. Сказанное иллюстрируется 
на рис. 15.4. 
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Лемма 15.1 Для выполнения поиска или вставки в ИЗТ- 
дереве, построенном из N случайных ключей , требуется 
около 1§УѴ сравнений в среднем и около 2 1§УѴ сравнений в 
худшем случае. Количество сравнений никогда не превыша- 
ет количество разрядов в ключе поиска. 

Утверждения этой леммы для случайных ключей мож- 
но доказать при помощи рассуждений, которые анало- 
гичны приведенным для более естественной задачи в 
следующем разделе, поэтому здесь мы предоставляем 
читателям самостоятельно вывести доказательство (см. 
упражнение 15.30). Доказательство основывается на 



интуитивном представлении о том, что невидимая 
часть случайного ключа с равной вероятностью долж- 
на начинаться с 0 или 1 разряда, поэтому половина 
приходится на любую сторону любого ключа. При каж- 
дом перемещении вниз по дереву мы используем раз- 
ряд ключа, поэтому ни для какого поиска в 0$Т-дере- 
ве не может требоваться больше сравнений, чем 
разрядов в ключе поиска. Для типового случая, когда 
имеются ѵѵ-разрядные слова и количество ключей N 
значительно меньше общего возможного количества 
ключей, равного 2”, длины путей близки к 1&/Ѵ. Поэто- 
му для случайных ключей количество сравнений значи- 
тельно меньше количества разрядов в ключах. 

На рис. 15.5 показано большое П$Т-дерево, образо- 
ванное случайными 7-разрядными ключами. Это дерево 
почти идеально сбалансировано. Использование ЭЗТ-де- 
ревьев заманчиво во многих реальных приложениях, по- 
скольку эти деревья обеспечивают практически оптималь- 







ную производительность даже при решении очень ' . 

’’ г гг не приводит к дальнейшему 

сложных задач, требуя лишь минимальных усилий на ре- увеличению высоты дерева. 
ализацию. Например, ШТ-дерево, построенное из 32-раз- 

рядных ключей (или четырех 8-разрядных символов), гарантировано требует менее 
32 сравнений, а 08Т-дерево, построенное из 64-разрядных ключей (или восьми 8- 
разрядных символов), гарантировано требует менее 64 сравнений, даже при наличии 
миллионов ключей. Для большого значения N подобные гарантии сравнимы с теми, 
которые обеспечивают красно-черные (КВ-) деревья, но для их реализации требуются 
почти такие же усилия, как и для реализации стандартных В8Т-деревьев (которые 
могут гарантировать только производительность, пропорциональную УѴ 2 ). Это свой- 
ство делает 08Т-деревья привлекательной альтернативой использованию сбалансиро- 
ванных деревьев для практической реализации функций зеагсН и іпзегі в таблице сим- 
волов, при условии наличия эффективного доступа к разрядам ключей. 


РИСУНОК 15.4 Р5Т-ДЕРЕВО 
ДЛЯ ХУДШЕГО СЛУЧАЯ 

В этой последовательности 
рисунков отображены 
результаты вставки ключей 

р = юооо , н = ото , /> = 

00100, В = 00010 и А * 00001 

в первоначально пустое 03Т- 
дерево. Последовательность 
деревьев кажется 
вырожденной , но длина пути 
ограничивается длиной 
двоичного представления 
ключей. Ни один 5-разрядный 
ключ , за исключением 00000, 
не приводит к дальнейшему 
увеличению высоты дерева. 
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РИСУНОК 15.5 ПРИМЕР 05Т-ДЕРЕВА 

Это В 8Т -дерево, построенное в результате вставки около 200 случайных ключей, хорошо 
сбалансировано. 


Упражнения 

> 15.1 Нарисуйте 08Т-дерево, образованное в результате вставки элементов с клю- 
чами ЕА8У^^ТIОNв указанном порядке в первоначально пустое дерево 
при использовании двоичного кодирования, приведенного на рис. 15.1. 

15.2 Покажите последовательность вставки ключей А В С В Е Е О, приводящую 
к образованию полностью сбалансированного 08Т-дерева, одновременно являю- 
щегося допустимым В8Т-деревом. 

15.3 Покажите последовательность вставки ключей А В С В Е Е С, приводящую 
к образованию полностью сбалансированного 08Т-дерева, характеризующегося 
тем, что каждый его узел имеет ключ, который меньше ключей всех узлов в его 
поддереве. 

> 15.4 Нарисуйте 08Т-дерево, образованное в результате вставки элементов с клю- 
чами 01010011 00000111 00100001 01010001 11101100 00100001 10010101 
01001010 в указанном порядке в первоначально пустое дерево. 

15.5 Можно ли в 08Т-деревьях хранить записи с дублированными ключами, как 
это возможно в В8Т-деревьях? Обоснуйте свой ответ. 

15.6 Экспериментально сравните высоту и длину внутреннего пути 08Т-дерева, 
построенного в результате вставки N случайных 32-разрядных ключей в первона- 
чально пустое дерево, с этими же характеристиками стандартного В8Т-дерева и 
КВ-дерева (см. главу 13), построенных из этих же ключей, при N = ІО 3 , 10 4 , 10 5 и 

ю б . 

о 15.7 Приведите полное определение длины внутреннего пути для худшего случая 
08Т-дерева, содержащего N различных поразрядных ключей. 

• 15.8 Реализуйте операцию гетоѵе для таблицы символов, основанной на 08Т-де- 
реве. 

• 15.9 Реализуйте операцию зеіесі для таблицы символов, основанной на 08Т-дере- 
ве. 

о 15.10 Опишите, как можно было бы вычислить высоту 08Т-дерева, образованного 
заданным набором ключей, при линейных затратах времени, не прибегая к стро- 
ительству 08Т-дерева. 
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15.2 Тгіе-деревья 

В этом разделе мы рассмотрим деревья поиска, которые позволяют использовать 
разряды ключей для проведения поиска подобно ИЗТ-деревьям, но ключи которых 
упорядочены, что позволяет поддерживать рекурсивные реализации функции зон и 
других функций таблиц символов, как это делалось в отношении В$Т-деревьев. Ос- 
новная идея заключается в хранении ключей только в нижней части дерева, в листь- 
ях. Результирующая структура данных обладает рядом полезных свойств и служит 
основой для нескольких эффективных алгоритмов поиска. Впервые структура была 
создана Брианде (Вгіапбаіз) в 1959 г., и поскольку она оказалась удобной для поис- 
ка (ге/пеѵаі), в 1960 г. Фредкин (Ргебкіп) применил к ней специальное название ігіе. 
С некоторой долей юмора обычно это слово произносится как "трай-и" (ігу — попыт- 
ка, англ.), дабы отличать его от "ігее". Вероятно, в соответствии с принятой в книге 
терминологией, подобного рода деревья следовало бы называть "ігіе-деревьями би- 
нарного поиска", тем не менее, повсеместно используется термин ігіе-дерево и все его 
понимают. В этом разделе рассматривается базовая бинарная версия, в разделе 15.3 
— важную вариацию, а в разделах 15.4 и 15.5 — базовую версию ігіе-деревьев со мно- 
гими путями и ее вариации. 

Тгіе-деревья можно использовать для ключей, которые содержат фиксированное 
количество разрядов либо являются строками разрядов переменной длины. Для про- 
стоты начнем рассмотрение, предположив, что ни один ключ поиска не является пре- 
фиксом другого ключа. Например, это условие выполняется, когда ключи имеют фик- 
сированную длину и являются различными. 

В Ігіе-дереве ключи хранятся в листьях бинарного дерева. Вспомните из раздела 
5.4, что лист в дереве — это узел, не имеющий дочерних узлов, что отличает его от 
внешнего узла, который интерпретируется как нулевой дочерний узел. В бинарнбм 
дереве под листом понимается внутренний узел, левая и правая связи которого яв- 
ляются нулевыми. Хранение ключей в листьях, а не во внутренних узлах позволяет 
использовать разряды ключей для проведения поиска, как это делалось применитель- 
но к 08Т-деревьям в разделе 15.1, сохраняя при этом свойство, что все ключи, теку- 
щий разряд которых равен 0, попадают в левое поддерево, а все ключи, текущий раз- 
ряд которых равен 1 — в правое. 

Определение 15.1 Под Ігіе -деревом понимается бинарное дерево , имеющее ключи, свя- 
занные с каждым из его листьев, и рекурсивно определенное следующим образом. Тгіе- 
дерево, состоящее из пустого набора ключей, представляет собой нулевую связь. Тгіе- 
дерево, состоящее из единственного ключа — это лист, содержащий данный ключ. И, 
наконец, ігіе-дерево, содержащее намного больше одного ключа — это внутренний узел, 
левая связь которого ссылается на ігіе-дерево с ключами, начинающимися с 0 разряда, 
а правая — на ігіе-дерево с ключами, начинающимися с 1 разряда, причем для констру- 
ирования поддеревьев ведущий разряд такого дерева должен бытъ удален. 

Каждый ключ в ігіе-дереве хранится в листе, в пути, описанном ведущей последо- 
вательностью разрядов ключа. И наоборот, каждый лист в ігіе-дереве содержит толь- 
ко ключ, который начинается с разрядов, определенных в пути от корня до этого 
листа. Нулевые связи в узлах, не являющихся листьями, соответствуют последователь- 
ностям ведущих разрядов, которые не присутствуют ни в одном ключе ігіе-дерева. 
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Следовательно, для поиска ключа в Ігіе-дереве нужно всего лишь просмотреть его 
ветви в соответствии с разрядами ключа, как это делалось в ОЗТ-деревьях, но при 
этом не нужно выполнять сравнение во внутренних узлах. Поиск начинается слева 
от ключа, с верхушки дерева, с продвижением по левой связи, если текущий разряд — 
О, и по правой, если он — 1; при этом перемещение внутри ключа выполняется на 
один разряд вправо. Поиск, завершающийся на нулевой связи, считается промахом; 
поиск, который заканчивается в листе, может быть завершен при помощи одного 
сравнения с ключом, поскольку этот узел содержит единственный ключ в дереве, ко- 
торый может быть равен искомому. Программа 15.2 содержит реализацию этого про- 
цесса. 

Программа 15.2 Поиск в Ігіе-дереве 

В этой функции разряды ключа используются для управления переходом по ветвям 
при перемещении вниз по дереву, как это делается в программе 15.1 для йЗТ-де- 
ревьев. Возможны три варианта: если поиск достигает листа (с обоими нулевыми 
связями), значит, это уникальный узел Ігіе-дерева, который может содержать запись 
с ключом ѵ. В такой ситуации выполняется проверка, действительно ли этот узел со- 
держит ѵ (попадание при поиске) или какой-либо ключ, ведущие разряды которо- 
го совпадают с ѵ (промах при поиске). Если поиск достигает нулевой связи, то вто- 
рая связь родительского узла не должна быть нулевой и, следовательно, в Ігіе-дереве 
существует какой-либо другой ключ, соответствующий разряд которого отличается 
от ключа поиска, и имеет место промах при поиске. В программе предполагается, 
что ключи являются различными и (если ключи могут иметь различную длину) ни 
один ключ не является префиксом другого ключа. Член Нет не используется в уз- 
лах, которые не являются листьями. 

ргіѵаѣе : 

І'Ьет зеагсЬК (Ііпк Ь, Кѳу ѵ, іпѣ сі) 

{ іі: (Ь == 0) гѳ+игп пиІШѳт; 

(Ь->1 == 0 && Ь->г = 0) 

{ Кѳу ѵ = Ь->і*Ьѳт.кѳу () ; 

гвѣит (ѵ = ѵ) ? Ь-^іѣвт : пиШѣет; ) 
і* (йідіѣ (ѵ, сі) == 0) 

геѣигп зѳагсЬК (Ь->1 , ѵ, сі+1); 
еізѳ гвѣит зеагсЬК (Ь->г , ѵ, сі+1) ; 

> 

риЫіс : 

Іѣет зѳагсЪ(Кеу ѵ) 

{ ге+игп зѳагсЬК(Ьѳасі, ѵ , 0) ; } 


Для вставки ключа в Ігіе-дерево вначале, как обычно, выполняется поиск. Если 
поиск завершается на нулевой связи, она, как обычно, заменяется связью с новым 
содержащим ключ листом. Но если поиск заканчивается в листе, необходимо продол- 
жить перемещение вниз по дереву, добавляя внутренний узел для каждого разряда, 
значение которого для искомого и найденного ключей совпадает; этот процесс дол- 
жен завершиться тем, что оба ключа в листьях, являющихся дочерними узлами внут- 
реннего узла, будут соответствовать первому разряду, в котором они отличаются. 
Пример поиска и вставки в Ігіе-дереве показан на рис. 15.6; процесс построения Ігіе- 
дерева за счет вставки ключей в первоначально пустое дерево представлен на рис. 
15.7. Программа 15.3 представляет собой полную реализацию алгоритма вставки. 
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Для успешного поиска ключа Н = 01000 в этом 
примере Ігіе-дерева (верхний рисунок) выполняется 
перемещение влево от корня (поскольку первый раз- 
ряд в двоичном представлении ключа равен 0), затем 
вправо (поскольку второй разряд равен 1), где проис- 
ходит обнаружение Н, который является единствен- 
ным ключом в дереве, начинающимся с последователь- 
ности 01. Ни один ключ в Ігіе-дереве не начинается с 
101 или 11; эти последовательности разрядов ведут к 
нулевым связям, находящимся в узлах, которые не яв- 
ляются листьями. 

Для вставки ключа I (нижний рисунок) потребует- 
ся добавить три узла, не являющиеся листьями: узел, 
соответствующий последовательности 01, с нулевой 
связью, соответствующей последовательности 011; 
узел, соответствующий 010, с нулевой связью, которая 
соответствует 0101; и узел, соответствующий последо- 
вательности 0100, С КЛЮЧОМ Н = 01000 в листе слева 
и с ключом I = 01001 в листе справа от него. 

Программа 15.3 Вставка в Ые-дерево 

Для вставки нового узла в *гіе-дерево вначале, как обычно, выполняется поиск. 
В случае промаха возможны два варианта. 

Если промах имел место не в листе, нулевая связь, приведшая к выявлению прома- 
ха, как обычно, заменяется связью с новым узлом. 

Если промах имел место в листе, функция ерііі используется для создания по од- 
ному нового внутреннему узлу для каждой разрядной позиции, в которой ключ по- 
иска и найденный ключ совпадают. Процесс завершается созданием одного внут- 
реннего узла для самой левой разрядной позиции, в которой эти ключи 
различаются. Оператор зшіісН в функции ерііі преобразует два проверяемых раз- 
ряда в число для управления четырьмя возможными случаями. Если разряды оди- 
наковы (случай 00 2 = 0 или 11 2 = 3), разделение продолжается; если разряды раз- 
личны (случай 01 2 = 1 или 10 2 = 2), разделение прекращается. 

ргіѵаѣе : 

Ііпк зр1іЬ(1іпк р, Ііпк ч, іпЪ сі) 

{ Ііпк Ь = пек посіе (пиШЬет) ; = 2; 

Кеу ѵ = р->іЬет.кеу () ; Кеу к = д->іЬет.кеу () ; 
зкіЬсЬ (сіідіЬ (ѵ, сі) *2 + сіідіЬ(к, сі) ) 

{ сазе 0: Ь->1 = зр1іЬ(р, д, сі+1) ; Ьгеак; 

сазе 1: Ь->1 = р; Ъ->г = д; Ьгеак; 
сазе 2: Ь->г =* р; Ь->1 = д; Ьгеак; 
сазе 3: Ь->г * зрІі'Мр, д, сі+1); Ьгеак; 

} 

геЪигп Ь; 

) 

ѵоісі іпзег , ЬК(1іпк& Ь, ІЬет х, іпЬ сі) 

{ І5 (Ь == 0) { Ь = пек посіе (х); геЬигп; ) 
іі: (Ь->1 == 0 && Ь->г == 0) 

{ Ь = зр1іЬ(пек посіе (х) , Ь, сі) ; геЬигп; ) 



РИСУНОК 15.6 ПОИСК И 
ВСТАВКА В ТКІЕ-ДЕРЕВЕ 

Ключи в ігіе-дереве хранятся в 
листьях (узлах с обоими 
нулевыми связями); нулевые 
связи в узлах , которые не 
являются листьями , 
соответствуют 
последовательностям разрядов , 
не найденным ни в одном ключе 
ігіе-дерева. 
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(сіідіі (х.кеу () , <і) = 0) 

іпзегѣК(Ь->1, х, <і+1) ; 
еізе іпзегЪК (Ь->г , х, <і+1) ; 

} 

риЫіс: 

5Т(іпЪ тахЫ) 

{ Ііеасі = 0 ; } 

ѵоісі іпзег1(І1ет Нет) 

{ іпзегѣК (Ъѳасі, іѣвт, 0) ; } 




Мы не обращаемся к нулевым связям в листьях и 
не храним элементы в узлах, не являющихся листья- 
ми, поэтому можно сократить объем используемой 
памяти, применив ипіоп или пару производных клас- 
сов для определения узлов, как принадлежащих к од- 
ному из этих двух типов (см. упражнения 15.20 и 
15.21). Пока стоит пойти более простым путем, ис- 
пользуя единственный тип узлов, который имел ме- 
сто в В$Т-деревьях, ЭЗТ-деревьях и других структур 
бинарных деревьев, внутренние узлы которых харак- 
теризуются нулевыми ключами, а листья — нулевыми 
связями, памятуя, что при необходимости можно вос- 
пользоваться памятью, теряемой из-за этого упроще- 
ния. В разделе 15.3 будет рассмотрено усовершен- 
ствование алгоритма, исключающее потребность в 
нескольких типах узлов, а в главе 16 приводится ре- 
ализация, в которой применяется ипіоп. 

Теперь давайте рассмотрим основные свойства 
ігіе-деревьев, вытекающие из определения и приве- 
денных примеров. 

Лемма 15.2 Структура ігіе -дерева не зависит от 
порядка вставки ключей: для каждого данного набо- 
ра различных ключей существует уникальное Ігіе- 
д ере во. 

Этот основополагающий факт, который можно 
доказать методом математической индукции, 
примененным к поддеревьям — отличительная 
особенность Ігіе-деревьев: для всех остальных рас- 
смотренных структур деревьев поиска создавае- 
мое дерево зависит как от набора ключей, так и 
от порядка их вставки. 







РИСУНОК 15.7 ПОСТРОЕНИЕ ТШЕ- 
ДЕРЕВА 

На этой последовательности 
рисунков показан результат 
вставки ключей А 8 Е К С Н I N в 
первоначально пустое ігіе-дерево. 


Левое поддерево Ігіе-дерева содержит все ключи, ведущий разряд которых равен 
0, а правое поддерево — все ключи, ведущий разряд которых равен 1. Это свойство 
Ігіе-деревьев обусловливает прямое соответствие с поразрядным поиском: при поис- 
ке с использованием бинарного Ігіе-дерева файл делится совершено так же, как при 
бинарной быстрой сортировке (см. раздел 10.2). Такое соответствие становится оче- 
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видным при сравнении Ігіе-дерева, показанного на рис. 15.6, со схемой разделения 
на рис. 10.4 (с учетом незначительного различия в ключах); это аналогично соответ- 
ствию между поиском с использованием бинарного дерева и быстрой сортировкой 
(см. главу 12). 

В частности, в отличие от 08Т-деревьев, Ігіе-деревья не обладают свойством упо- 
рядоченности ключей, поэтому операции зогі и зеіесі в таблице символов могут быть 
реализованы непосредственно (см. упражнения 15.17 и 15.18). Более того, Ігіе-дере- 
вья столь же хорошо сбалансированы, как и 08Т-деревья. 

Лемма 15.3. Для выполнения вставки или поиска случайного ключа в ігіе-дереве, пост- 
роенном из N случайных (различных) строк разрядов, требуется в среднем около 1§іѴ срав- 
нений разрядов. В худшем случае количество сравнений разрядов не превышает количе- 
ство разрядов в искомом ключе. 

К анализу Ігіе-деревьев необходимо подходить очень внимательно в связи с тре- 
бованием, что ключи должны быть различными, или, в более общем случае, что ни 
один ключ не должен быть префиксом другого ключа. Одна из простых моделей, 
соответствующая этому условию, требует, чтобы ключи были случайной (бесконеч- 
ной) последовательностью разрядов — из нее выбираются разряды, необходимые 
для построения Ігіе-дерева. 

Тогда производительность для среднего случая можно обосновать, исходя из сле- 
дующих вероятностных соотношений. Вероятность того, что каждый из N ключей 
в случайном Ігіе-дереве отличается от случайного ключа поиска по меньшей мере 
в одном из I ведущих разрядов, равна 



Вычитание этого значения из 1 дает вероятность того, что один из ключей в Ігіе- 
дереве совпадает с ключом поиска во всех I ведущих разрядах. Другими словами, 


это вероятность того, что для выполнения поиска требуется выполнение более / 
сравнений разрядов. В соответствии с элементарными соотношениями теории ве- 
роятностей для />0 сумма вероятностей того, что случайная переменная будет 
больше 1, совпадает со средним значением этой случайной переменной, и, следо- 
вательно, средние затраты на поиск определяются выражением 



Воспользовавшись элементарной аппроксимацией (1 - \/х) х ~ е'\ находим, что 
затраты на поиск должны быть приблизительно равны 
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Значения приблизительно 1§УѴ членов этой суммы, для которых 2 1 значительно 
меньше УѴ, очень близки к 1 ; значения всех членов, для которых 2' значительно 
больше 7Ѵ, близки к 0; и значения нескольких членов, для которых 2'~ IV, лежат 
в интервале между 0 и 1. Таким образом, значение суммы приближенно равно 1§УѴ. 
Для более точного определения этого значения требуется выполнение очень слож- 
ных математических вычислений (см. раздел ссылок). В приведенном анализе пред- 
полагается, что значение \ѵ достаточно велико, чтобы во время поиска никогда не 
возникала ситуация недостаточного количества разрядов; тем не менее, учет дей- 
ствительного значения лишь уменьшит получаемое значение затрат. 

В худшем случае можно было бы получить два ключа, имеющие огромное коли- 
чество одинаковых разрядов, но вероятность подобного события ничтожно мала. 
Вероятность того, что утверждение леммы 15.3 для худшего случая не соблюдает- 
ся, экспоненциально стремится к нулю (см. упражнение 15.29). 


Еще один подход к анализу Ігіе-деревьев заключается в обобщении подхода, ко- 
торый использовался при анализе В8Т-деревьев (см. лемму 12.6). Вероятность того, 
что к ключей начинаются с 0 разряда, а N — к ключей начинаются с 1 разряда, равна 


V 

к 
\ / 


/ 2 „ 


Следовательно, длина внешнего пути описывается рекуррентным соотношением 



Это рекуррентное соотношение аналогично рекуррен- 
тному соотношению быстрой сортировки, которое было 
решено в разделе 7.2, но решить его значительно труднее. 
Как ни удивительно, но точным решением является выра- 
жение для средних затрат на поиск, полученное на осно- 
вании леммы 15.3, умноженное на N (см. упражнение 
15.26). Исследование самого рекуррентного соотношения 
позволяет понять, почему Ігіе-деревья лучше сбалансиро- 
ваны, чем В8Т-деревья: вероятность того, что разделение 
произойдет вблизи середины дерева, гораздо выше, чем в 
любом другом месте. Поэтому рекуррентное соотношение 
больше напоминает соотношение сортировки слиянием 
(приблизительное решение которого равно 7Ѵ1§УѴ), неже- 
ли рекуррентное соотношение быстрой сортировки (при- 
близительное решение которого равно 2 N 1 §УѴ). 

Неприятное свойство Ігіе-деревьев, также отличающее 
их от других рассмотренных типов деревьев поиска — од- 
нонаправленное ветвление в случае присутствия ключей с 
одинаковыми разрядами. Например, ключи, которые раз- 
личаются только в последнем разряде, всегда требуют пути, 
длина которого равна длине ключа, независимо от количе- 




РИСУНОК 15.8 ХУДШИЙ 
СЛУЧАЙ БИНАРНОГО ТКІЕ- 
ДЕРЕВА 

На этих рисунках показан 
результат вставки ключей 
Н=01000 и 1=01001 в 
первоначально пустое 
бинарное ігіе-дерево. Как и в 
ВЗТ-дереве (см. рис. 15.4), 
длина пути ограничивается 
длиной двоичного 
представления ключей; 
однако, как видно из этого 
примера, пути могут иметь 
эту длину даже при наличии 
в ігіе-дереве всего двух 
ключей. 
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ства ключей в дереве (см. рис. 15.8). Количество внутренних узлов может несколько 
превышать количество ключей. 

Лемма 15.4 Тгіе -дерево, построенное из N случайных \ѵ -разрядных ключей, содержит в 
среднем около А/ 1п 2 ~ 1 .44 N узлов. 


Изменив аргумент для леммы 15.3, можно записать выражение для среднего ко- 
личества узлов в Ігіе-дереве с N ключами (см. упражнение 15.27): 



Математический анализ, позволяющий получить приблизительное значение этой 
суммы, значительно сложнее, чем приведенный для леммы 15.3, поскольку значе- 
ния многих членов не равны 0 или 1 (см. раздел ссылок). 

Полученный результат можно подтвердить эмпирически. Например, на рис. 15.9 
показано большое дерево, имеющее на 44 процента больше узлов, чем 05Т-дерево 
или ОЗТ-дерево, построенные из этого же набора ключей. Тем не менее, оно хоро- 
шо сбалансировано и затраты на поиск в нем почти оптимальны. На первый взгляд 
могло бы показаться, что дополнительные узлы приведут к существенному повыше- 
нию средних затрат на поиск, но в действительности это не так — например, сред- 
ние затраты на поиск увеличились бы всего на 1 при увеличении вдвое количества 
узлов в сбалансированном Ігіе-дереве. 

Для удобства реализации в программах 15.2 и 15.3 предполагалось, что ключи раз- 
личны и имеют фиксированную длину, дабы иметь уверенность, что рано или поздно 
ключи окажутся различными, а программы смогут обрабатывать по одному разряду 
одновременно и никогда не выйдут за пределы разрядов ключей. Для удобства в про- 
граммах 15.2 и 15.3 также неявно предполагалось, что ключи имеют произвольное 
количество разрядов, дабы, в конце концов, если пренебречь очень малой (уменьша- 
ющейся по экспоненциальному закону) вероятностью, они оказывались различными. 
Прямым следствием этого допущения является то, что обе программы и их анализ, 
когда ключами являются строки разрядов переменной длины, требуют нескольких 
уточнений. 



РИСУНОК 15.9 ПРИМЕР ТМЕ-ДЕРЕВА 

Это ігіе-дерево, построенное в результате вставки около 200 случайных ключей , хорошо 
сбалансировано, но из-за однонаправленного ветвления содержит на 44 процента больше узлов , чем 
было бы необходимо в ином случае. (Нулевые связи в листьях не показаны.) 
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Для использования программ в приведенном виде в отношении ключей перемен- 
ной длины ограничение различия ключей следует расширить, чтобы ни один из клю- 
чей не был префиксом другого ключа. Как будет показано в разделе 15.5, в некото- 
рых приложениях подобное ограничение достигается автоматически. В противном 
случае такие ключи можно было бы обрабатывать, сохраняя информацию во внут- 
ренних узлах, поскольку каждый обрабатываемый префикс соответствует какому- 
либо внутреннему узлу в Ігіе-дереве (см. упражнение 15.31). 

Для достаточно длинных ключей, состоящих из случайных разрядов, утверждения 
из лемм 15.2 и 15.3 для среднего случая по-прежнему справедливы. В худшем случае 
высота Ігіе-дерева по-прежнему ограничивается количеством разрядов в самых длин- 
ных ключах. Эти затраты могут оказаться весьма существенными, если ключи имеют 
очень большую длину и, возможно, определенное сходство, как в случае закодиро- 
ванных символьных данных. В следующих двух разделах рассматриваются методы 
снижения затрат в ігіе-деревьях для случая длинных ключей. Один из способов сокра- 
щения путей в Ігіе-деревьях сводится к свертыванию однонаправленных ветвей в от- 
дельные связи (изящный и эффективный метод выполнения этой задачи будет при- 
веден в разделе 15.3). Другой способ уменьшения длин путей в ігіе-деревьях 
предполагает существование более двух связей для каждого узла; этот подход — тема 
раздела 15.4. 

Упражнения 

\> 15.11 Нарисуйте Ігіе-дерево, образованное в результате вставки элементов с клю- 
чами ЕА8V^^ТIОNв указанном порядке в первоначально пустое ігіе-де- 
рево. 

15.12 Что происходит в случае применения программы 15.3 для вставки записи, 
ключ которой равен какому-либо ключу, уже присутствующему в Ігіе-дереве? 

15.13 Нарисуйте дерево, образованное в результате вставки элементов с ключа- 
ми 01010011 00000111 00100001 01010001 11101100 00100001 10010101 

01001010 в первоначально пустое Ігіе-дерево. 

15.14 Эмпирически сравните высоту, количество узлов и длину внутреннего пути 
Ігіе-дерева, построенного в результате вставки N случайных 32-разрядных ключей 
в первоначально пустое Ігіе-дерево, с этими же характеристиками стандартного 
В5Т-дерева и КБ-дерева (глава 13), построенных из тех же ключей, для N - ІО 3 , 
ІО 4 , ІО 5 и ІО 6 (см. упражнение 15.6). 

15.15 Полностью охарактеризуйте длину внутреннего пути для худшего случая 
Ігіе-дерева, содержащего N различных поразрядных ключей. 

• 15.16 Реализуйте операцию гетоѵе для таблицы символов, основанной на ігіе-де- 
реве. 

о 15.17 Реализуйте операцию зеіесі для таблицы символов, основанной на Ігіе-дереве. 
15.18 Реализуйте операцию зогі для таблицы символов, основанной на Ігіе-дереве. 

> 15.19 Создайте программу, которая выводит все ключи Ігіе-дерева, имеющие те же 
начальные і разрядов, что и заданный искомый ключ. 
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о 15.20 Воспользуйтесь конструкцией ипіоп из С++ для реализации операций зеагсИ 
и іпзеП , в которых применяются Ігіе-деревья с узлами, не являющимися листьями; 
которые содержат связи, но не содержат элементов; и с листьями, которые содер- 
жат элементы, но не содержат связей. 

о 15.21 Воспользуйтесь парой производных классов для реализации операций зеагсН 
и іпзеП , в которых используются Ігіе-деревья с узлами, не являющимися листьями; 
которые содержат связи, но не содержат элементов; и с листьями, которые содер- 
жат элементы, но не содержат связей. 

15.22 Измените программы 15.3 и 15.2 так, чтобы они сохраняли ключ поиска в 
машинном регистре и выполняли сдвиг на один разряд для обращения к следую- 
щему разряду при перемещении в Ігіе-дереве на уровень вниз. 

15.23 Измените программы 15.3 и 15.2 так, чтобы они поддерживали таблицу 2 Г 
Ігіе-деревьев для фиксированной константы г, причем первые г разрядов ключа 
должны использоваться для индексирования таблицы, а к остальным разрядам 
ключа применяются стандартные алгоритмы доступа. Это изменение позволяет сэ- 
кономить около г шагов, если только таблица не содержит большого количества 
нулевых записей. 

15.24 Какое значение следовало бы выбрать для г в упражнении 15.23 при нали- 
чии N случайных ключей (которые достаточно длинны, чтобы их можно было счи- 
тать различными)? 

15.25 Создайте программу для вычисления количества узлов в Ігіе-дереве, соответ- 
ствующих данному набору различных ключей фиксированной длины, путем их 
сортировки и сравнения соседних ключей в отсортированном списке. 

• 15.26 Методом индукции докажите, что 

г >0 

— это решение рекуррентного соотношения наподобие быстрой сортировки, при- 
веденного после леммы 15.3, для длины внешнего пути в случайном Ігіе-дереве. 

• 15.27 Из выражения леммы 15.4 получите выражение для среднего количества уз- 
лов в случайном Ігіе-дереве. 

• 15.28 Создайте программу для вычисления среднего количества узлов в случайном 
Ігіе-дереве, состоящем из N узлов, и вывода значения с точностью до ІО 3 , для 

ІО 3 , 10 4 , ІО 5 и ІО 6 . 

•• 15.29 Докажите, что высота Ігіе-дерева, построенного из N случайных строк раз- 
рядов, приблизительно равна 2 1&/Ѵ. Совет: рассмотрите задачу о дне рождения (см. 
лемму 14.2). 

• 15.30 Докажите, что средние затраты на поиск в 08Т-дереве, построенном из слу- 
чайных ключей, асимптотически приближаются к 1§іѴ(см. леммы 15.1 и 15.2). 

15.31 Измените программы 15.2 и 15.3 так, чтобы они обрабатывали строки раз- 
рядов переменной длины с единственным ограничением, что в структуре данных 
не должны храниться записи с дублированными ключами. В частности, решите в 
рамках этого соглашения возвращать значение Ъіі(ѵ, й) для случая, когда й боль- 
ше длины ѵ. 
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15.32 Воспользуйтесь Ігіе-деревом для построения структуры данных, которая мо- 
жет поддерживать АТД таблицы существования для поразрядных целых чисел. Про- 
грамма должна поддерживать операции сопзігисі, іпзегі и зеагсН при условии, что 
іпзегі и зеагск принимают целочисленные аргументы, а зеагск возвращает 
пи1Шет.кеу() в случае промаха и полученный аргумент в случае попадания при 
поиске. 


15.3 раігісіа-деревья 


Основанный на Ігіе-деревьях поиск, описанный в разделе 15.2, обладает двумя 
недостатками. Во-первых, однонаправленное ветвление приводит к созданию допол- 
нительных узлов в Ігіе-дереве, что кажется необязательным. Во-вторых, в Ігіе-дере- 


ве присутствуют два различных типа узлов, что 
приводит к усложнениям (см. упражнения 15.20 и 
15.21). В 1968 г. Моррисон (Моггізоп) изобрел спо- 
соб ликвидации обоих проблем за счет применения 
метода, который назвал раггісіа (ргасіісаі а1§огііЬт 
Іо геігіеѵе іпГогтаііоп собесі іп аІрЬапитегіс — 
практический алгоритм получения информации, 
закодированной алфавитно-цифровыми символа- 
ми). Моррисон разработал свой алгоритм в контек- 
сте приложений, использующих индексирование по 
строкам, наподобие рассмотренных в разделе 15.5, 
но этот алгоритм не менее эффективен и в плане 
реализации таблицы символов. Подобно 08Т-дере- 
вьям, раігісіа-деревья позволяют выполнять поиск 
N ключей в дереве, содержащем всего N узлов; по- 
добно деревьям, они требуют выполнения всего 
лишь около 1&УѴ сравнений разрядов и одного срав- 
нения полного ключа для выполнения одного по- 
иска, а также поддерживают другие операции с 
АТД. Более того, эти характеристики производи- 
тельности не зависят от длины ключей, и структу- 
ра данных подходит для ключей переменой длины. 

Начиная со структуры данных стандартного 
Ігіе-дерева, мы избегаем однонаправленного ветв- 
ления благодаря применению простого приема: в 
каждый узел помещается индекс разряда, который 
должен проверяться с целью выбора пути из этого 
узла. Таким образом, мы переходим непосредствен- 
но к разряду, в котором должно приниматься важ- 
ное решение, пропуская сравнения разрядов в уз- 
лах, в которых все ключи в поддереве имеют 
одинаковое значение этого разряда. Более того, 
внешние узлы исключаются при помощи еще одно- 
го простого приема: данные хранятся во внутрен- 
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РИСУНОК 15.10 

ПОИСК В РАТКІСІА-ДЕРЕВЕ 

При успешном поиске ключа К— 10010 
в этом раігісіа-дереве выполняется 
перемещение вправо (поскольку 
нулевой разряд равен 1), затем влево 
(поскольку 4 разряд равен 0), что 
приводит к ключу Я (единственному 
ключу в дереве, начинающемуся с 
последовательности 1***0). По пути 
вниз в дереве выполняется проверка 
только тех разрядов ключа , которые 
указаны цифрами над узлами (ключи в 
узлах игнорируются). При первой 
встрече связи, которая указывает 
вверх в дереве, искомый ключ 
сравнивается с ключом в узле, 
указанном идущей вверх связью, 
поскольку это единственный ключ в 
дереве, который может быть равен 
искомому ключу. 

При безуспешном поиске ключа 
1=01001 выполняется перемещение 
влево от корня (поскольку нулевой 
бит равен 0), затем по правой 
(направленной вверх) связи (поскольку 
первый бит равен 1) и выясняется, 
что ключ Н (единственный ключ в 
дереве, начинающийся с 
последовательности 01) не равен I. 
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них узлах, а связи с внешними узлами заменяются свя- 
зями, которые указывают в обратном направлении 
вверх на требуемый внутренний узел в Ігіе-дереве. Эти 
два изменения позволяют представлять Ігіе-деревья как 
бинарные деревья, состоящие из узлов с ключом и дву- 
мя связями (а также дополнительным полем под ин- 
декс); такие деревья называются раігісіа-деревъями. При 
использовании раігісіа-деревьев ключи хранятся в уз- 
лах, как при использовании 08Т-деревьев, а обход 
дерева выполняется в соответствии с разрядами иско- 
мого ключа, но для управления поиском нет необходи- 
мости использовать ключи в узлах при перемещении 
вниз по дереву. Они хранятся там просто для возмож- 
ного обращения к ним впоследствии, при достижении 
нижней части дерева. 

Как было вскользь отмечено в предыдущем абзаце, 
отследить работу алгоритма проще, если вначале при- 
нять во внимание, что стандартные Ігіе-деревья и 
раігісіа-деревья можно считать различными представ- 
лениями одной и той же абстрактной структуры Ігіе- 
дерева. Например, Ігіе-деревья, показанные на рис. 

15.10 и на верхней схеме рис. 15.11, иллюстрирующие 
поиск и вставку для раігісіа-деревьев, представляют ту 
же абстрактную структуру, что и Ігіе-деревья на рис. 

15.6. В алгоритмах поиска и вставки для раігісіа-дере- 
вьев используется, создается и поддерживается конк- 
ретное представление АТД Ігіе-дерева, отличающееся 
от используемого в алгоритмах поиска и вставки, кото- 
рые рассматривались в разделе 15.2. Тем не менее, ле- 
жащая в их основе абстракция остается той же самой. 

Программа 15.4 содержит реализацию алгоритма 
поиска в раігісіа-дереве. Используемый метод отлича- 
ется от поиска в ігіе-дереве в трех отношениях: не существует никаких явных нуле- 
вых связей, в ключе проверяется не следующий разряд, а указанный, и поиск завер- 
шается сравнением ключа в точке, в которой выполняется перемещение по дереву 
вверх. Легко проверить, указывает ли связь вверх, поскольку индексы разрядов в уз- 
лах (по определению) увеличиваются по мере перемещения вниз по дереву. При вы- 
полнении поиска он начинается от корня и перемещение выполняется вниз по дереву 
с использованием индекса разряда в каждом узле для определения разряда в искомом 
ключе, который следует проверять — если этот разряд равен 1, перемещение выпол- 
няется вправо, а если 0 — влево. При перемещении вниз по дереву ключи в узлах во- 
обще не проверяются. Со временем встречается связь, указывающая вверх: каждая 
направленная вверх связь указывает на уникальный ключ в дереве, содержащий раз- 
ряды, которые могли бы направить поиск вдоль этой связи. Таким образом, если 
ключ в узле, указанный первой направленной вверх связью, равен искомому ключу, 
поиск является успешным; в противном случае он будет безуспешным. 
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РИСУНОК 15.11 ВСТАВКА В 
РАТКІСІА-ДЕРЕВО 

Чтобы вставить ключ I в 
приведенный на рис. 15. 10 
пример раігісіа-дерева, мы 
добавляем новый узел для 
проверки 4 разряда , поскольку 
ключи Н=01000 и 1=01001 
отличаются только этим 
разрядом (рисунок вверху). В 
процессе последующего поиска в 
ігіе-дереве, который достигает 
нового узла, необходимо 
проверить ключ Н (левую связь), 
если 4 разряд ключа поиска 
равен 0; если этот разряд равен 
1 ( правая связь), следует 
проверить ключ I. 

Для вставки ключа N=01110 
(рисунок внизу) мы добавляем 
новый узел между ключами Н и 
I для проверки 2 разряда, 
поскольку именно этот разряд 
отличает Мот Ни I. 
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Программа 15.4 Поиск в раігісіа-дереве 

Рекурсивная функция веагсНК возвращает уникальный узел, который может содер- 
жать запись с ключом ѵ. Она выполняет продвижение вниз по Ігіе-дереву, исполь- 
зуя разряды для управления поиском, но проверяет только один разряд каждого 
встреченного узла — указанный в поле Ьіі. Функция прерывает поиск, встретив вне- 
шнюю связь, указывающую вверх. Функция поиска веагсН вызывает функцию 
зеагсИЯ, а затем проверяет ключ в этом узле для определения того, имеет ли ме- 
сто попадание и промах при поиске. 

ргіѵаіе : 

І-Ьет зеагсЬР. (Ііпк Ь, Кеу ѵ, іпЬ <і) 

{ 

(Ь->Ьіі: <= <і) геЬигп Ь->іЬет; 

(<іідіі:(ѵ, Ь->ЪіЪ) = 0) 
ге-Ьигп зеагсЬК (Ь->1 , ѵ, Ь->Ьіѣ) ; 
еізе геіигп зеагсЬК(Ь->г , ѵ, Ь->Ы1:) ; 

} 

риЫіс: 

Іѣѳт зеагсЬ(Кеу ѵ) 

{ І-Ьет -Ь = зѳагсЬК (Ьеасі, ѵ, -1) ; 

геЪигп (ѵ == -Ь.кеуО) ? Ь : пиШЬет; 

} 


На рис. 15.10 показан поиск в раігісіа-дереве. В случае промаха, обусловленного 
тем, что поиск направляется по нулевой связи в Ігіе-дереве, соответствующий поиск 
в раігісіа-дереве будет следовать несколько иным путем, нежели поиск в стандартном 
Ігіе-дереве, поскольку при перемещении вниз по дереву разряды, соответствующие 
однонаправленному ветвлению, вообще не проверяются. В то время как поиск в Ігіе- 
дереве завершается в листе, поиск в раігісіа-дереве завершается сравнением с тем же 
ключом, что и при поиске в Ігіе-дереве, но без проверки разрядов, соответствующих 
однонаправленному ветвлению в Ігіе-дереве. 

Реализация вставки для раігісіа-деревьев отражает два случая, возникающих при 
вставке в Ігіе-деревьях (см. рис. 15.11). Как обычно, информация о местоположении 
нового ключа извлекается из промаха при поиске. При использовании Ігіе-деревьев 
промах может происходить либо из-за нулевой связи, либо из-за несовпадения клю- 
ча в листе. При использовании раігісіа-деревьев приходится выполнять дополнитель- 
ные действия для определения требуемого типа вставки, поскольку во время поиска 
соответствующие однонаправленному ветвлению разряды были пропущены. Поиск в 
раігісіа-деревьях всегда завершается сравнением ключа, и этот ключ содержит требу- 
емую информацию. Мы находим самый левый разряд, в котором отличаются иско- 
мый ключ и ключ, прервавший поиск, затем снова выполняем поиск в Ігіе-дереве, 
сравнивая этот разряд с разрядами в узлах по пути поиска. Посещение узла, опреде- 
ляющего более старшую позицию разряда, чем у того, где различаются искомый и 
найденный ключи, свидетельствует о пропуске разряда во время поиска в рагіісіа- 
дереве, который должен был бы приводить к нулевой связи при аналогичном поис- 
ке, но в Ігіе-дереве. Поэтому мы добавляем новый узел, чтобы обеспечить проверку 
этого разряда. Если не удается отыскать узел, определяющий более старшую позицию 
разряда, чем у того, где различаются искомый и найденный ключи, значит, поиск в 
раігісіа-дереве соответствует поиску в Ігіе-дереве, который завершается в листе. В 
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таком случае мы добавляем новый узел, который разли- 
чает искомый ключ и ключ, прервавший поиск. Мы все- 
гда добавляем только один узел, ссылающийся на самый 
левый разряд, в котором ключи отличаются, в то время 
как при использовании стандартного Ігіе-дерева для дос- 
тижения этого разряда могло бы потребоваться добавле- 
ние нескольких узлов с однонаправленными ветвями. По- 
мимо обеспечения требуемого различения разрядов, 
новый узел будет использоваться также и для хранения 
нового элемента. Начальный этап построения примера 
Ігіе-дерева показан на рис. 15.12. 

Программа 15.5 содержит реализацию алгоритма встав- 
ки в раігісіа-дерево. Код вытекает непосредственно из 
описания, приведенного в предыдущем абзаце, с учетом 
одного дополнительного обстоятельства, что выполняет- 
ся просмотр связей с узлами, содержащими индексы раз- 
рядов, длина которых не превышает индекс текущего раз- 
ряда и которые служат связями с внешними узлами. Код 
вставки просто проверяет это свойство связей, но не дол- 
жен перемещать ключи или связи. На первый взгляд на- 
правленные вверх связи в раігісіа-деревьях кажутся 
странными, но выбор связей, которые должны использо- 
ваться при вставке каждого узла, удивительно прост. Суть 
же заключается в том, что использование одного типа 
узла вместо двух существенно упрощает код. 



и 



0 





Программа 15.5 Вставка в раігісіа-дерево 

Процесс вставки ключа в раігісіа-дерево начинается с поис- 
ка. Функция зеагсМН из программы 15.5 приводит к уникаль- 
ному ключу в дереве, который должен отличаться от вставля- 
емого. Мы определяем самый левый разряд, в котором 
отличаются этот и искомый ключи, а затем при помощи ре- 
курсивной функции іпзегШ перемещаемся вниз по дереву и 
вставляем новый узел, содержащий ѵ в этой позиции. 


РИСУНОК 15.12 ПОСТРОЕНИЕ 
РАТКІСІА-ДЕРЕВА 

Эта последовательность 
рисунков отражает 
результат вставки ключей А 
8ЕКСН в первоначально 
пустое раігісіа-дерево. На 
рис. 15.11 находится 
результат вставки ключей I 
и N в дерево, показанное на 
нижнем рисунке. 


В функции іпзегШ имеется два случая, которые соответствуют 
случаям, проиллюстрированным на рис. 15.11. Новый узел 
может замещать внутреннюю связь (если ключ поиска отлича- 
ется от ключа, найденного в позиции разряда, который был пропущен) или внешнюю 
связь (если разряд, который отличает искомый ключ от найденного, не потребовался 
для различения найденного ключа от всех других ключей в Ігіе-дереве). 


ргіѵаѣе : 

Ііпк іпвегѣК (Ііпк Ъ, Нет х, іпѣ <1, Ііпк р) 

{ Кеу ѵ = х.кеу() ; 

і* ( (Ь->ЪІ1 >= <і) М (Ь->ЫЪ <= р->ЪіЪ) ) 
{ 

Ііпк Ь = пек посіе(х); = сі; 

Ъ->1 = (сііді’ЬІѵ, Ѣ->ЬИ) ? Ь : ѣ) ; 
Ъ->г * (сііді'ЬІѵ, Ъ->ЫЪ) ? Ь : Ь) ; 
геѣигп Ь ; 


} 
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(гіідіІСѵ, Ь^ЬіЪ) = 0) 

Ь->1 = іпзегЪК (Ь->1 , х, <і, Ь) ; 
еізе Ь->г = іпзег-ЬКф-^г , х, <і, Ь) ; 
геіигп Ь; 

} 

риЫіс: 

ѵоісі іпзег-Ь (Нет х) 

{ Кѳу ѵ = х . кеу ( ) ; іпі. і ; 

Кѳу ѵ = зеагсЪК (Ьеай->1 , ѵ, -1) . кеу() ; 

(ѵ = %0 геіигп; 

^ог (і = 0; <ііді-Ь(ѵ, і) = сіідіМѵ, і) ; і++) ; 

Ьеасі->1 = іпзег-ЬК (ЬеасІ->1 , х, і , Ьеасі) ; 

} 

ЗТ(іп1 шахЫ) 

{ Ьеасі = пеѵ посіѳ (пиШЪеш) ; 

Ьѳасі“>1 = Ьеасі->г = Ьеасі; } 


В соответствии с принципом конструирования, все внешние узлы, расположенные 
ниже узла с индексом разряда к, начинаются с тех же самых к разрядов (в противном 
случае следовало бы создать узел с индексом разряда, который меньше к , чтобы два 
узла различались). Следовательно, раігісіа-дерево можно преобразовать в стандарт- 
ное ігіе-дерево, создав соответствующие внутренние узлы между узлами, в которых 
разряды были пропущены, и заменив указывающие вверх связи на связи с внешни- 
ми узлами (см. упражнение 15.48). Однако, лемма 15.2 выполняется для раігісіа-де- 
ревьев не полностью, поскольку присваивание ключей внутренним узлам зависит от 
порядка вставки ключей. Структура внутренних узлов зависит от порядка вставки 
ключей, а внешние связи и размещение значений ключей — нет. 

Важное следствие того, что раігісіа-дерево представляет лежащую в его основе 
структуру стандартного Ігіе-дерева, заключается в том, что рекурсивный поперечный 
обход дерева можно использовать для посещения узлов по порядку, как демонстри- 
руется в программе 15.6. Мы посещаем только внешние узлы, которые выявляются 
за счет проверки на наличие не увеличивающихся индексов разрядов. 

Программа 15.6 Сортировка в раігісіа-дереве 

Эта рекурсивная процедура отображает записи в раігісіа-дереве в порядке следо- 
вания их ключей. В программе предполагается, что элементы располагаются во вне- 
шних (виртуальных) узлах, которые могут быть выявлены при помощи проверки того, 
что индекс разряда в текущем узле не превышает индекс разряда его родительс- 
кого узла. В остальном эта программа — суть реализация стандартного попереч- 
ного обхода. 

ргіѵа'Ье : 

ѵоісі 5ЬоѵК(1іпк Ь, озѣгеатб оз , іпѣ сі) 

{ 

(Ь->МѢ <= сі) { Ь-^іѣвт. зЬоѵ(оз) ; геѣигп; } 
зЬоѵК(1і->1 , оз, Ь->Ъ^) ; 
зЬоѵК(1і“>г , оз, Ъ->Ыі:) ; 

> 

риЫіс : 

ѵоісі зЬо* (озѣгеатб оз) 

{ зЫжК(Ьеасі->1 , оз, -1) ; } 
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РИСУНОК 15.13 ПРИМЕР РАТКІСІА-ДЕРЕВА 

Это раігісіа-дерево, построенное в результате вставки примерно 200 случайных ключей , 
эквивалентно Ігіе -дереву, приведенному на рис. 15.9, при условии удаления из последнего 
однонаправленных ветвей. Результирующее дерево является почти идеально сбалансированным. 

раігісіа-деревья — наиболее показательная реализация метода поразрядного по- 
иска: этот метод позволяет идентифицировать разряды, которые отличают ключи по- 
иска, после чего встраивать их в структуру данных (без избыточных узлов), обеспе- 
чивающую быстрое попадание от любого искомого ключа к единственному ключу в 
структуре, который мог бы быть равен искомому. На рис. 15.13 показано раігісіа-де- 
рево, образованное теми же ключами, которые использовались для построения Ігіе- 
дерева из рис. 15.? — раігісіа-дерево не только содержит на 44 процента меньше уз- 
лов по сравнению со стандартным Ігіе-деревом, но и является почти идеально 
сбалансированным. 

Лемма 15.5 Вставка или поиск случайного ключа в раігісіа-дереве, построенном из N 
случайных строк разрядов, требует приблизительно 1§7Ѵ сравнений разрядов в среднем и 
приблизительно 2 1§7Ѵ сравнений разрядов в худшем случае. Количество сравнений разря- 
дов никогда не превышает длины ключа. 

Эта лемма — непосредственное следствие леммы 15.3, поскольку длина путей в 
раігісіа-деревьях не превышает длину путей в соответствующих Ігіе-деревьях. Точ- 
ный анализ среднего случая раігісіа-дерева сложен; из него следует, что в среднем 
в раігісіа-дереве требуется на одно сравнение меньше, чем в стандартном ігіе-де- 
реве (см. раздел ссылок). 

В табл. 15.1 приведены экспериментальные данные, подтверждающие вывод, что 
ИЗТ-деревья, стандартные Ігіе-деревья и раігісіа-деревья обеспечивают сравнимую 
производительность (а также обеспечивают время поиска, которое сравнимо или 
меньше времени поиска методов с использованием сбалансированных деревьев из 
главы 13) в случае целочисленных ключей. Поэтому данные методы определено дол- 
жны рассматриваться в качестве возможных реализаций таблиц символов даже при 
использовании ключей, которые могут быть представлены в виде коротких строк раз- 
рядов, с учетом ряда упомянутых вполне очевидных ограничений. 

Таблица 15.1 Экспериментальные результаты исследования реализаций Ігіе-деревьев 

Эти сравнительные значения времени построения и поиска в таблицах символов, 
содержащих случайные последовательности 32-разрядных целых чисел, подтверж- 
дают, что поразрядные методы конкурируют с методами, использующими сбалан- 
сированные деревья, даже в случае ключей, хранящих случайные разряды. Разли- 
чия в производительности более заметны, когда ключи являются длинными и не 
обязательно случайными (см. табл. 15.2), или когда особое внимание уделяется 
обеспечению эффективности доступа к разрядам ключа (см. упражнение 15.22). 
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конструирование попадания при поиске 


N 

В 

1 > V 1 1 V ^ ^ Г 1 

0 

V к» ЧЛ 11*1 V 

Т 

Р 

В 

? ■ У Г ■■ИМЙЦгГ. * 1 УЦД 

0 

■ ■ ѵ ■ ія ѵ* » ■ 

т 



Р 

1250 

1 

1 

1 

1 

0 

1 

1 

0 

2500 

2 

2 

4 

3 

1 

1 

2 

1 

5000 

4 

5 

7 

7 

3 

2 

3 

2 

12500 

18 

15 

20 

18 

8 

7 

9 

7 

25000 

40 

36 

44 

41 

20 

17 

20 

17 

50000 

81 

80 

99 

90 

43 

41 

47 

36 

100000 

176 

167 

269 

242 

103 

85 

101 

92 

200000 

411 

360 

544 

448 

228 

179 

211 

182 


Ключ: 

В ВВ-дерево бинарного поиска (программы 12.8 и 13.6) 
О ОЗТ-дерево (программа 15.1) 

Т Ігіе-дерево (программы 15.2 и 15.3) 

Р раігісіа-дерево (программы 15.4 и 15.5) 


Обратите внимание, что затраты на поиск, упомянутые в лемме 15.5, не возрастают 
с увеличением длины ключа. И напротив, затраты на поиск при использовании стан- 
дартного Ігіе-дерева, как правило, зависят от длины ключей — позиция Первого раз- 
ряда, в котором различаются два заданных ключа, может находиться на произволь- 
ном удалении от начала ключа. Все рассмотренные ранее методы поиска, 
основанные на сравнениях, также зависят от длины ключа — если два ключа разли- 
чаются только самым правым разрядом, для их сравнения требуется время, пропор- 
циональное длине ключей. 

Более того, для выполнения поиска методами хеширования всегда требуется вре- 
мя, пропорциональное длине ключа, поскольку требуется вычислять хеш-функцию. 
Однако метод раігісіа-деревьев позволяет обращаться непосредственно к интересу- 
емым разрядам и, как правило, требует проверки менее 1§УѴ из них. В связи с этим 
раігісіа-метод (или поиск с использованием Ігіе-дерева, из которого удалены одно- 
направленные ветвления) — наиболее предпочтительный метод поиска при наличии 
длинных ключей. 

Например, предположим, что используется компьютер, обеспечивающий эффек- 
тивный доступ к 8-разрядным байтам данных, и требуется выполнять поиск среди 
миллионов 1000-разрядных ключей. В этом случае при использовании раігісіа-мето- 
да для выполнения поиска потребовался бы доступ только к приблизительно 20 бай- 
там искомого ключа плюс одна 125-байтовая операция сравнения. В то же время при 
использовании хеширования потребовался бы доступ ко всем 125 байтам искомого 
ключа для вычисления хеш-функции плюс несколько операций сравнения, а осно- 
ванные на сравнениях методы потребовали бы от 20 до 30 сравнений полных клю- 
чей. Действительно, сравнения ключей, в особенности на ранних этапах поиска, тре- 
буют сравнения всего нескольких байтов, но на последующих этапах, как правило, 
необходимо сравнение значительно большего количества байтов. В разделе 15.5 мы 
снова сравним производительность различных методов поиска для случая длинных 
ключей. 
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Действительно, для раігісіа-алгоритма вообще не должно существовать никаких 
ограничений на длину искомых ключей. Как будет показано в разделе 15.5, этот ал- 
горитм особенно эффективен в приложениях с ключами переменной длины, которые 
могут быть очень длинными. При использовании раігісіа-деревьев можно надеяться, 
что количество проверок разрядов, необходимых для поиска среди N записей, даже 
с очень длинными ключами, будет приблизительно пропорциональным 1&/Ѵ. 

Упражнения 

15.33 Что происходит при использовании программы 15.5 для вставки записи, ключ 
которой равен какому-либо ключу, уже присутствующему в Ігіе-дереве? 

> 15.34 Нарисуйте раігісіа-дерево, образованное в результате вставки ключей Е А 8 
УСЗІІТІОКв указанном порядке в первоначально пустое Ігіе-дерево. 

> 15.35 Нарисуйте раігісіа-дерево, образованное в результате вставки ключей 

01010011 00000111 00100001 01010001 11101100 00100001 10010101 01001010 

в указанном порядке в первоначально пустое Ігіе-дерево. 

о 15.36 Нарисуйте раігісіа-дерево, образованное в результате вставки ключей 

01010011 00000111 00100001 11101100 01010001 00100001 00000111 01010011 

в указанном порядке в первоначально пустое Ігіе-дерево. 

15.37 Экспериментально сравните высоту и длину внутреннего пути раігісіа-де- 
рева, построенного в результате вставки N случайных 32-разрядных ключей в пер- 
воначально пустое Ігіе-дерево, с этими же характеристиками стандартного В5Т- 
дерева и ЯВ-дерева (глава 13), образованных из этих же ключей, для N = 10 3 , ІО 4 , 
ІО 5 и ІО 6 (см. упражнения 15.6 и 15.14). 

15.38 Приведите полную характеристику длины внутреннего пути для худшего 
случая раігісіа-дерева, содержащего N различных ѵѵ-разрядных ключей. 

> 15.39 Реализуйте операцию зеіесі для таблицы символов, основанной на раігісіа- 
дереве. 

• 15.40 Реализуйте операцию гетоѵе для таблицы символов, основанной на раігісіа- 
дереве. 

• 15.41 Реализуйте операцию ]оіп для таблицы символов, основанной на раігісіа-де- 
реве. 

о 15.42 Создайте программу, которая выводит все ключи раігісіа-дерева, имеющие 
такие же начальные / разрядов, как и у заданного искомого ключа. 

15.43 Измените стандартные поиск и вставку с использованием Ігіе-дерева (про- 
граммы 15.2 и 15.3) с целью исключения однонаправленного ветвления подобно 
тому, как это делается для раігісіа-деревьев. Если вы уже выполнили упражнение 
15.20, воспользуйтесь результирующей программой в качестве отправной точки. 

15.44 Измените поиск и вставку с использованием раігісіа-дерева (программы 
15.4 и 15.5) для поддержки таблицы 2 Г Ігіе-деревьев, как описано в упражнении 
15.23. 

15.45 Покажите, что каждый ключ в раігісіа-дереве находится в собственном пути 
поиска и, следовательно, во время выполнения операции зеагсН встречается как по 
пути вниз по дереву, так и в конце операции. 
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15.46 Измените программу поиска с использованием раігісіа-дерева (программа 
15.4), чтобы в процессе перемещения вниз по дереву она сравнивала ключи с це- 
лью повышения производительности обнаружения попаданий при поиске. Экс- 
периментально оцените эффективность произведенного изменения (см. упражне- 
ние 15.45). 

15.47 Воспользуйтесь раігісіа-деревом для построения структуры данных, которая 
может поддерживать АТД таблицы существования для ѵѵ-разрядных целых чисел 
(см. упражнение 15.32). 

• 15.48 Создайте программу, которая преобразует раігісіа-дерево в стандартное Ігіе- 
дерево с такими же ключами, и наоборот. 

15.4 Многопутевые Ігіе-деревья и Т$Т-деревья 

Было установлено, что производительность поразрядной сортировки можно суще- 
ственно увеличить, рассматривая одновременно более одного разряда. То же самое 
справедливо и в отношении поразрядного поиска: исследуя одновременно по г раз- 
рядов, скорость поиска можно увеличить в г раз. Однако, существует скрытая опас- 
ность, вынуждающая применять эту идею более осторожно, чем в случае поразряд- 
ной сортировки. Проблема заключается в том, что одновременное рассмотрение г 
разрядов соответствует использованию узлов дерева с Я=2 Г связями, а это может при- 
водить к значительным напрасным затратам памяти для неиспользуемых связей. 

В Ігіе-деревьях (бинарных), описанных в разделе 15.2, узлы, соответствующие раз- 
рядам ключей, имеют две связи: одну для случая, когда разряд ключа равен 0, и вто- 
рую для случая, когда он равен 1. Подходящим обобщением служат Я - путевые Ігіе- 
деревья, когда цифрам ключа соответствуют узлы с Я связями, по одной для каждого 
возможного значения цифры. Ключи хранятся в листьях (узлах, все связи которых 
являются нулевыми). Поиск в /^-путевом Ігіе-дереве начинается с корня и с самой 
левой цифры ключа, а цифры ключа используются для управления перемещением 
вниз по дереву. Если значение цифры равно /, выполняется перемещение вниз по /- 
той связи (и переход на следующую цифру). В случае достижения листа, он содержит 
единственный ключ в Ігіе-дереве, ведущие цифры которого соответствуют пройден- 
ному пути, поэтому для определения того, имеет ли место попадание или промах при 
поиске, можно сравнить этот ключ с искомым. В случае достижения нулевой связи 
понятно, что имеет место промах при поиске, поскольку эта связь соответствует пос- 
ледовательности ведущих цифр, не найденной ни в одном ключе Ігіе-дерева. На рис. 
15.14 показано 10-путевое Ігіе-дерево, представляющее тестовый набор десятичных 
чисел. Как отмечалось в главе 10, встречающиеся на практике числа обычно разли- 
чаются сравнительно небольшим количеством узлов Ігіе-дерева. Эта же особенность 
более общих типов ключей служит основой для ряда эффективных алгоритмов поис- 
ка. 

Прежде чем создавать реализацию полной таблицы символов с несколькими типа- 
ми узлов, давайте начнем изучение многопутевых деревьев с задачи таблицы суще- 
ствования, в которой хранятся только ключи (без каких-либо записей и связанной с 
ними информации). Требуется разработать алгоритмы вставки ключа в структуру дан- 
ных и поиска в структуре данных с целью определения, был ли вставлен заданный 


ключ. 
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Чтобы использовать тот же интерфейс, что и для более об- 
щих реализаций таблиц символов, давайте примем соглаше- 
ние, что функция поиска возвращает пиІШеш при промахе и 
фиктивный элемент, содержащий искомый ключ, при попада- 
нии. Это соглашение способствует упрощению кода и нагляд- 
ному представлению структуры многопутевых Ігіе-деревьев. В 
разделе 15.5 исследуются более общие реализации таблиц сим- 
волов, в том числе индексация строк. 

Определение 15,2 ігіе-дерево существования , соответству- 
ющее набору ключей , рекурсивно определяется следующим об- 
разом: ігіе-дерево для пустого набора ключей — нулевая связь; 
ігіе-дерево для непустого набора ключей — внутренний узел, 
содержащий связи, ссылающиеся на ігіе-дерево для каждой воз- 
можной цифры ключа, причем при построении поддеревьев ве- 
дущая цифра должна удаляться. 

Для простоты в этом определении предполагается, что ни 
один ключ не является префиксом другого. Как правило, 
удовлетворение такого ограничения достигается тем, что все 
ключи различны и либо имеют фиксированную длину, либо 
содержат завершающий символ со значением ІЧШЛлііві* — 
служебный символ, который не используется ни для каких 
других целей. Основное в этом определении то, что Ігіе-дере- 
вья существования можно применять для реализации таблиц 
существования без сохранения внутри ігіе-дерева какой-либо 
информации. Вся информация неявно определяется внутри 
структуры Ігіе-дерева. Каждый узел содержит /М-1 связь (по 
одной для каждого возможного значения символа плюс одну 
связь для ІЧІЛЛлИ§й) и не содержит никакой другой информа- 
ции. Для управления перемещением вниз по Ігіе-дереву во 
время поиска используются цифры из ключа. Если связь с 
ІЧШЛЛІ8Н встречается одновременно с завершением цифр 
ключа, то имеет место попадание при поиске, в противном 
случае имеет место промах. Для вставки нового ключа поиск 
выполняется до тех пор, пока не встретится нулевая связь, а 
затем добавляются узлы для каждого из остальных символов в 
ключе. На рис. 15.15 показан пример 27-путевого Ігіе-дерева; 
программа 15.7 содержит реализацию процедур поиска и 
вставки в базовом (многопутевом) Ігіе-дереве существования. 


РИСУНОК 15.14 
Ю-ПУТЕВОЕ 
ТКІЕ-ДЕРЕВО ДЛЯ 
ДЕСЯТИЧНЫХ ЧИСЕЛ. 


На этом рисунке 
показано ігіе-дерево, 
которое позволяет 
различать набор чисел 


.396465048 

.353336658 

.318693642 

.015583409 

.159369371 

.691004885 

.899854354 

.159072306 

.604144269 

.269971047 

.538069659 


(см. рис. 12.1). Каждый 
узел имеет 10 связей (по 
одной для каждой 
возможной цифры). В 
корне связь 0 указывает 
на ігіе-дерево для 
ключей, первая цифра 
которых равна 0 
(присутствует только 
одно такое дерево); 
связь 1 указывает на 
ігіе-дерево для ключей, 
первая цифра которых 
— 1 ( таких деревьев 
два), и т.д. Ни одно из 
этих чисел не имеет 
первой цифры, равной 4, 
7, 8 или 9, поэтому 
данные связи являются 
нулевыми. В дереве 
присутствует только по 
одному числу, первая 
цифра которого равна О, 
2 и 5, поэтому для 
каждой из этих цифр 
имеется лист, 
содержащий 
соответствующее число. 
Остальная часть 
структуры строится 
рекурсивно за Счет 
смещения на одну цифру 
вправо . 
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Программа 15.7 Поиск и вставка в Ігіе-дерево существования 

В этой реализации операций веагсі і и іпзегі для многопутевых 
Ігіе-деревьев ключи неявно сохраняются внутри структуры Ігіе- 
дерева. Каждый узел содержит В указателей на следующий, 
более низкий уровень Ігіе-дерева. Когда Г-той цифрой ключа 
будет /, перемещение выполняется вдоль /-той связи на уров- 
не і. Функция зеагсЬ возвращает фиктивный элемент, содер- 
жащий переданный в аргументе ключ, если он присутствует в 
таблице, или пиІІІіет в противном случае. В качестве альтер- 
нативы можно было бы изменить интерфейс, чтобы в нем ис- 
пользовался только тип Кеу, или в созданном нами классе эле- 
ментов реализовать преобразование типа из Нет в Кеу. 



ргіѵаіе : 
вігисі посіе 

{ посіе **пех1; 
посіе ( ) 

{ пехі = пеѵ посіе* [К] ; 

Іог (іпі і = 0; і < К; і++) пех![і] 

> ; 

Іуресіеі: посіе *1іпк; 

Ііпк Ьеасі; 

Нет зеагсЬК(1іпк Ь, Кеу ѵ, іпі сі) 

{ іпі і * сііді!(ѵ, <і) ; 

іі (Ь = 0) геіигп пиІІІіет; 
іі (і ** ШЫЛідіІ) 

{ Нет сіитту(ѵ) ; геіигп йитту; } 
геіигп зеагсЬК(Ь->пех1[і] , ѵ, сі+1) ; 

} 

ѵоісі іпаег!К(1іпк& Ь, Нет х, іпі сі) 

{ іпі і = сііді!(х.кеу () , сі) ; 
іі (Ь « 0) Ь а пеѵ посіе; 
і€ (і == ІГОЫіСІідіІ) геіигп; 
іпзѳг!К(Ь->пех1[і] , х, сі+1) ; 

} 

риЫіс: 

ЗТ(іп1 шахК) 

{ Ьеасі = 0 ; } 

Нет веагсЬ(Кеу ѵ) 

{ геіигп зеагсЬК (Ьеасі, ѵ , 0) ; } 

ѵоісі іп8ег1(І1ет х) 

{ ІП8ѲГІК (Ьеасі, х, 0) ; } 


0 ;} 

РИСУНОК 15.15 ПОИСКИ 
ВСТАВКА В К-ПУТЕВОМ 
ТКІЕ-ДЕРЕВЕ 
СУЩЕСТВОВАНИЯ 

26-путевое ігіе-дерево для 
слов поѵѵ, із и іНе (рисунок 
вверху) имеет девять узлов: 
корень плюс по одному узлу 
для каждой буквы. На этих 
рисунках узлы помечены , но 
в структурах данных явные 
метки узлов не 
используются , поскольку 
метка каждого узла может 
быть получена , исходя из 
позиции его связи в массиве 
связей родительского узла . 
Для вставки ключа Ііте в 
существующем узле для 1 
создается новая ветвь и 



Если ключи различны и имеют фиксированную длину, 
можно обратиться к связи с конечным символом и прекра- 
щать поиск по достижении длины ключа (см. упражнение 
15.55). Мы уже встречались с примером подобного типа 
ігіе-дерева, когда использовали Ігіе-деревья для описания 
сортировки ключей фиксированной длины сначала по са- 
мому старшему разряду (М8Э). 


добавляются новые узлы для 
ключей і,тие (рисунок в 
центре); для вставки ключа 
/ог выполняется переход от 
корня и добавляются новые 
узлы для / о и г. 


В определенном смысле это чисто абстрактное представление структуры Ігіе-де- 


рева является оптимальным, поскольку оно может поддерживать выполнение опера- 
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ции зеагсН за время, которое пропорционально длине ключа, при затратах памяти, в 
худшем случае пропорциональных общему количеству символов в ключе. Однако об- 
щий объем используемой памяти может оказаться весьма большим, поскольку для 
каждого символа имеется около Я связей. В конечном итоге необходимы более эф- 
фективные реализации. Как было показано для случая бинарных Ігіе-деревьев, в ка- 
честве конкретного представления абстрактной структуры, которая хорошо опреде- 
ляет используемый набор ключей, имеет смысл рассматривать чистое Ігіе-дерево. 
Далее можно исследовать и другие представления той же абстрактной структуры, ко- 
торые, возможно, обеспечат более высокие показатели производительности. 


Определение 15.3 Многопутевое ігіе -дерево — это многопутевое дерево, имеющее 
связанные с каждым из его листьев ключи, которое рекурсивно определяется следующим 
образом: ігіе-дерево для пустого набора ключей представляет собой нулевую связь; ігіе- 
дерево для единственного ключа лист, содержащий этот ключ; и, наконец, ігіе -де- 
рево для набора ключей, количество которых значительно превышает 1 — внутренний 
узел со связями, ссылающимися на ігіе-деревья для ключей с каждым из возможных зна- 
чений цифр, причем для конструирования поддеревьев ведущая цифра должна удалять- 
ся. 


Предполагается, что ключи в структуре данных различны и ни один ключ не яв- 
ляется префиксом другого. При выполнении поиска в стандартном многопутевом 
Ігіе-дереве цифры ключа используются для направления поиска вниз по дереву. При 
этом возможны три исхода. Если достигнута нулевая связь, значит, имеет место про- 
мах при поиске; если достигнут лист, содержащий ключ поиска, имеет место попада- 
ние; если достигнут лист, содержащий другой ключ, имеет место промах при поиске. 
Все листья имеют Я нулевых связей, следовательно, как упоминалось в разделе 15.2, 
узлы-листья и узлы, не являющиеся листьями, могут быть представлены различным 
образом. Такая реализация рассматривается в главе 16, а в этой главе предлагается 
другой подход к реализации. В любом случае аналитические результаты, полученные 
в разделе 15.3, являются достаточно общими, чтобы дать представление о характери- 
стиках производительности стандартных многопутевых деревьев. 

Лемма 15.6. Для выполнения поиска или вставки в стандартном Я-арном ігіе-дереве в 
среднем требуется выполнение приблизительно Іо§кЛІ сравнений байтов в дереве, пост- 
роенном из N случайных строк байтов. Количество связей в Я-арном ігіе-дереве, пост- 
роенном из N случайных ключей, приблизительно равно ЯЫ/ЫЯ. Количество сравнений 
байтов, необходимое для выполнения поиска или сравнения, не превышает количества 
байтов в искомом ключе. 

Эти результаты — ни что иное, как обобщение утверждений, приведенных в лем- 
мах 15.3 и 15.4. Их можно получить, подставив в доказательствах этих лемм /? вме- 
сто 2. Однако, как упоминалось ранее, для выполнения точного математическо- 
го анализа требуются исключительно сложные математические выкладки. 

Характеристики производительности, указанные в лемме 15.6, представляют край- 
ний случай компромисса между временем выполнения и занимаемым объемом памя- 
ти. С одной стороны, имеется большое количество неиспользуемых нулевых связей 
— лишь несколько узлов вблизи вершины дерева используют более одной-двух из 
своих связей. С другой стороны, высота дерева невелика. Предположим, например, 
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что используется типичное значение К - 256 и имеется N случайных 64-разрядных клю- 
чей. В соответствии с леммой 15.6 для выполнения поиска потребуется (1&/Ѵ)/8 срав- 
нений символов (максимум 8) и при этом будет задействовано менее 47ІѴ связей. Если 
объем доступной памяти не ограничен, этот метод предоставляет весьма эффектив- 
ную альтернативу. Для этого примера затраты на выполнение поиска можно было бы 
сократить до 4 сравнений символов, приняв /?=65536, однако при этом потребовалось 
бы свыше 5900 связей. 

В разделе 15.5 мы вернемся к стандартным многопутевым деревьям. В остальной 
части этого раздела рассматривается альтернативное представление Ігіе-деревьев, 
построенных программой 15.7: ігіе-дерево тернарного поиска (іетагу зеагсИ Ігіе — Т5Т), 
или просто Т8Т-дерево, полная форма которого показана на рис. 15.16. В Т8Т-дереве 
каждый узел содержит символ и три связи, соответствующие ключам, текущие циф- 
ры которых меньше, равны и больше символа узла. Подход эквивалентен реализа- 
ции узлов Ігіе-дерева в виде В8Т-деревьев, в который в качестве ключей используются 
символы, соответствующие ненулевым связям. В стандартных Ігіе-деревьях существо- 
вания из программы 15.7 узлы Ігіе-дерева представляются /М-1 связью, и выводы о 
символе, представленном каждой ненулевой связью, делаются на основании его ин- 
декса. В соответствующем Т8Т-дереве существования все символы, соответствующие 
ненулевым связям, явно появляются в узлах — мы находим символы, соответствую- 
щие ключам, только при прохождении по средним связям. 

Алгоритм поиска для Т8Т-деревьев существования столь прост, что читатели вполне 
могли бы описать его самостоятельно. Алгоритм вставки несколько сложнее, но пря- 
мо отражает вставку в Ігіе-деревьях существования. Для выполнения поиска первый 
символ в ключе сравнивается с символом в корне. Если он меньше, поиск продолжа- 
ется по левой связи, если больше — по правой, а если равен, поиск выполняется 
вдоль средней связи и осуществляется переход к следующему символу ключа. В лю- 
бом случае алгоритм применяется рекурсивно. Поиск завершается промахом, если 
встречается нулевая связь или конец искомого ключа встречается раньше, чем 
ГШЫ4і§к. Поиск завершается попаданием, если пересекается средняя связь в узле, 
символ которого — ІЧШХсІі§и. Для вставки нового ключа выполняется поиск, а за- 
тем добавляются новые узлы для символов в заключительной части ключа, как это 
имело место в Ігіе-деревьях. Подробности реализации этих алгоритмов приведены в 
программе 15.8, а на рис. 15.17 показаны Т8Т-деревья, соответствующие Ігіе-деревьям 
из рис. 15.15. 

Продолжая использовать соответствие между деревьями поиска и алгоритмами 
сортировки, мы видим, что Т8Т-деревья соответствуют трехпутевой сортировке, точно 
так же как В8Т-деревья соответствуют быстрой сортировке, Ігіе-деревья — бинарной 
быстрой сортировке, а М -путевые Ігіе-деревья — М -путевой сортировке. Структура 
рекурсивных вызовов для трехпутевой сортировки, показанная на рис. 10.13, пред- 
ставляет собой Т8Т-дерево для этого набора ключей. Проблема нулевых связей, ха- 
рактерная для Ігіе-деревьев, похожа на проблему пустых корзин, характерную для 
поразрядной сортировки; трехпутевое ветвление обеспечивает эффективное решение 
обоих проблем. 
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РИСУНОК 15.16 СТРУКТУРЫ ТКІЕ-ДЕРЕВЬЕВ СУЩЕСТВОВАНИЯ 

На этих рисунках показаны три различных реализации ігіе-дерева существования для 16 слов саіі те 
ізНтаеІ зоте уеагз а%о пеѵег тіпй Ном Іощ ргесізеіу Наѵіщ * ІШІе ог по топеу: 26-путевое ігіе-дерево 
существования (вверху); абстрактное ігіе-дерево с удаленными нулевыми связями (в центре); 
представление в виде ТЗТ-дерева (внизу). 26-путевое Ігіе-дерево содержит слишком много связей, в 
то время как ТЗТ-дерево служит эффективным представлением абстрактного ігіе-дерева. 

В двух верхних ігіе-деревъях предполагается, что ни один ключ не является префиксом другого. 
Например, добавление ключа поі привело бы к потере ключа по. Для решения этой проблемы в конец 
каждого ключа можно добавить нулевой символ, как показано на примере ТЗТ-дерева на нижнем 
рисунке. 
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Программа 15.8 Поиск и вставка в ТЗТ-дерево существования 

Это код реализует те же алгоритмы абстрактного {гіе-дере- 
ва, что и в программе 15.7, но каждый узел содержит одну 
цифру и три связи: по одной для ключей, следующая цифра 
которых меньше, равна и больше соответствующей цифры в 
искомом ключе. 

ргіѵаѣе : 
зЬхис-Ь поде 

{ Нет Нет; іпѣ д; поде *1, *т, *г ; 
поде(іпЬ. к) 

{ д = к; 1 = 0; т = 0; г = 0; } 

} ; 

ѣурѳдеі поде *1іпк; 

Ііпк Ьеад; 

Ііёт пиПІіѳт; 

Нет зеагсЬК(1±пк Ъ, Кеу ѵ, іпѣ д) 

{ іпЬ і = дідН(ѵ, д) ; 

(Ь = 0) гв+игп пиІІИѳт; 
і* (і == ІШЬЬдідП) 

{ Пет дитту(ѵ); гѳ-Ьигп дшпту; } 

(і < Ь->д) гвЬигп зеагсЬР. (Ь->1 , ѵ, д) ; 

Н (і = Ь->д) ге-Ьигп зеагсЬК (Ь->т, ѵ, д+1) ; 

12 (і > Ь->д) ге-Ьигп зѳагсЬН. (Ь->г , ѵ, д) ; 

} 

ѵоід іпзвгѣК (Ііпкб Ь, Пет х, іпЪ д) 

{ іпЬ і = дідН(х.кеу () , д) ; 

Н (Ь » 0) Ь = пеѵ поде(і); 

іі (і == ШЬЬдідИ) гвЬигп; 

і* (і < Ь->д) іпвѳгЬК (Ь->1 , х, д) ; 

ІС (і «гг Ь->д) іпзеИК(Ь->т, х, д+1) ; 
і* (і > Ь->д) іп8ег-ЬК(Ь->г , х, д) ; 

} 

риЫіс: 

5Т(іп+ тахЫ) 

{ Ьеад = 0; } 

Нет 8еагсЬ(Кеу ѵ) 

{ гѳ-Ьигп 8еагсЬК(Ьеад, ѵ, 0) ; } 

ѵоід іпзегѣ (Нет х) 

{ іпзег-ЬК (Ьеад, х , 0) ; } 


Эффективность Т5Т-деревьев в плане используемого 
объема памяти можно повысить, помещая ключи в листья в 
тех точках, где они различны, и избегая однопутевого вет- 
вления между внутренними узлами, как это имело место в 
раігісіа-деревьях. В конце этого раздела исследуется реали- 
зация, основанная на первом из указанных изменений. 

Лемма 15 Л Для выполнения поиска или вставки в полное 
ТЗТ-дерево требуется время , пропорциональное длине клю- 
ча . Количество связей в ТЗТ-дереве превышает количество 
символов во всех ключах не более чем в три раза. 






РИСУНОК 15.17 Т$Т-ДЕРЕВЬЯ 
СУЩЕСТВОВАНИЯ 

ТЗТ-дерево существования 
содержит по одному узлу для 
каждой буквы , но каждый 
узел имеет только 3 дочерних 
узла , а не 26. Деревья на трех 
верхних рисунках — это ТЗТ- 
деревья , соответствующие 
примеру вставки из рис. 15. 1 5, 
за исключением того , что к 
каждому ключу дописывается 
завершающий символ. Это 
позволяет снять ограничение, 
связанное с тем, что ни один 
ключ не может быть 
префиксом другого . В таком 
случае можно, например, 
вставить ключ іНеогу 
(рисунок внизу). 


В худшем случае каждый символ ключа соответствует полному несбалансирован- 
ному Парному узлу, вытянутому наподобие односвязного списка. Вероятность 
возникновения этого худшего случая в случайном дереве исключительно мала. 
Скорее можно ожидать, что придется выполнить 1п К или менее сравнений на пер- 
вом уровне (поскольку корневой узел ведет себя подобно В8Т-дереву, состояще- 
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му из Я различных значений байтов) и, возможно, на 
нескольких других уровнях (если существуют ключи с 
общим префиксом и содержащие до Я различных значе- 
ний байтов в символе, который следует за префиксом). 
При этом для большинства символов придется выполнять 
лишь несколько сравнений байтов (поскольку большин- 
ство узлов Ігіе-дерева редко содержат ненулевые связи). 
Для обнаружения промахов при поиске, вероятнее всего, 
потребуется незначительное количество сравнений бай- 
тов, завершающихся на нулевой связи в одном из верх- 
них уровней дерева. Для обнаружения попаданий при 
поиске будет требоваться приблизительно по одному 
сравнению байта для одного символа ключа поиска, по- 
скольку большинство из них расположено в узлах с одно- 
путевым ветвлением в нижней части Ігіе-дерева. 

В общем случае фактически используемый объем памя- 
ти меньше верхнего предельного значения, определяе- 
мого тремя связями на каждый символ, поскольку клю- 
чи совместно используют узлы в верхних уровнях дерева. 
Мы воздержимся от проведения точного анализа для 
среднего случая, поскольку Т8Т-деревья наиболее полез- 
ны в ситуациях, когда ключи не являются ни случайны- 
ми, ни полученными из надуманных конструкций, соот- 
ветствующих худшему случаю. 


ІЛ)8— 361-Н-4 

ІЛ>3 485Л-4-НЛ17 

ІЛ)8 — 625.1) -73-1986 
ЫЯ — 679Л-48-1985 
ЬОР— 425 Л-56-1991 
ЫК— 6015 -Р -63-1988 
ЬѴМ— 455-М-67-І974 

ѴАРЯ 5054 33 

ѴКС 6875 

ѴЬЗОС 2542 30 

ѴРНІЬ -4060 2—55 

УРНУ 5 39 1—30 

ШШМ 5350 65 5 

ѴШЗ 10706 .7—10 

ѴЧ8 12692 -4—27 

РИСУНОК 15.18 ПРИМЕР 
СТРОКОВЫХ КЛЮЧЕЙ 
(НОМЕРОВ 
БИБЛИОТЕЧНЫХ 
ФУНКЦИЙ) 

Эти ключи из онлайновой 
базы данных библиотеки, 
иллюстрируют степень 
варьирования структуры, 
которую можно 
встретить в строковых 


Главное достоинство использования ТЗТ-деревьев заклю- 
чается в том, что они легко приспосабливаются к неодно- 
родностям в ключах, возникновение которых весьма веро- 
ятно в реальных приложениях. Это является следствием двух 
основных эффектов. Во-первых, ключи в реальных прило- 
жениях образуются из больших наборов символов, а исполь- 
зование конкретных символов в наборах далеко от одно- 
родного — например, в конкретном наборе строк, скорее 
всего, будет использоваться только небольшая часть возможных символов. При ис- 
пользовании Т8Т-деревьев можно задействовать 128- или 256-символьное кодирова- 
ние, не беспокоясь о лишних затратах для узлов с 128- или 256-путевым ветвлением 
и не будучи вынужденными определять, какие наборы символов действительно имеют 
значение. Наборы символов алфавитов, отличных от латинского, могут содержать 
тысячи символов — Т8Т-деревья особенно подходят для строковых ключей, состоя- 
щих из таких символов. Во-вторых, ключи в практических приложениях часто имеют 
структурированный формат, различающийся от приложения к приложению, когда в 
одной части ключа используются только буквы, в другой — только цифры, а специ- 
альные символы служат разделителями (см. упражнение 15.72). Например, на рис. 
15.18 приведен список кодов для базы данных онлайновой библиотеки. В случае та- 
ких ключей некоторые из узлов Ігіе-дерева могут быть представлены унарными уз- 
лами в Т8Т-дереве (для мест, где все ключи содержат разделители), другие могут быть 
представлены 10-узловыми В8Т-деревьями (для мест, где все ключи содержат цифры), 


ключах в приложениях. 
Некоторые символы 
могут бытъ 
смоделированы 
случайными буквами, 
другие — случайными 
цифрами, а третьи 
имеют фиксированное 
значение или структуру. 
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а третьи — 26-узловыми В8Т-деревьями (для мест, где все ключи содержат буквы). Эта 
структура создается автоматически, не требуя специального анализа ключей. 

Второе практическое преимущество поиска, основанного на Т8Т-деревьях, по 
сравнению со множеством других алгоритмов заключается в том, что обнаружение 
промахов при поиске, скорее всего, будет исключительно эффективным даже при 
длинных ключах. Часто для обнаружения промаха при поиске в алгоритме использу- 
ется лишь несколько сравнений байтов (и поддерживается несколько указателей). Как 
было показано в разделе 15.3, для обнаружения промаха при поиске в хеш-таблице, 
которая содержит N ключей, требуется время, пропорциональное длине ключа (для 
вычисления хеш-функции); для выполнения той же операции в дереве поиска требу- 
ется, по меньшей, мере 1§ІѴ сравнений ключей. Даже в раігісіа-дереве для обнаруже- 
ния случайного промаха при поиске требуется \%М сравнений разрядов. 

В табл. 15.2 приведены экспериментальные данные, подтверждающие выводы, 
приведенные в двух предыдущих абзацах. 

Таблица 15.2 Экспериментальные данные исследования поиска 

с использованием строковых ключей 

Эти сравнительные значения времени построения и поиска в таблицах символов, 
образованных строковыми ключами, наподобие библиотечных кодов из рис. 15.18, 
подтверждают, что Т5Т-деревья, хотя и требуют несколько больших затрат при по- 
строении, обеспечивают наиболее быстрое обнаружение промахов при поиске с ис- 
пользованием строковых ключей. В основном это обусловлено тем, что для поиска 
не требуется исследование всех символов в ключе. 

кон струирование п р омах и п ршл дис к е 


N 

В 

Н 

Т 

Т* 

В 

Н 

Т 

Т* 

1250 

4 

4 

5 

5 

2 

2 

2 

1 

2500 

8 

7 

10 

9 

5 

5 

3 

2 

5000 

19 

16 

21 

20 

10 

8 

6 

4 

12500 

48 

48 

54 

97 

29 

27 

15 

14 

25000 

118 

99 

188 

156 

67 

59 

36 

30 

50000 

230 

191 

333 

255 

137 

113 

70 

65 


Ключ: 

В Стандартное ВЗТ-дерево (программа 12.8) 

Н Хеширование с раздельным связыванием (М = Ы/ 5) (программа 14.3) 

Т Т5Т-дерево (программа 15.8) 

Т* ТЗТ-дерево с Я 2 -путевым ветвлением в корне (программы 15.11 и 15.12) 


Третья причина привлекательности Т8Т-деревьев заключается в том, что они под- 
держивают более общие операции, нежели рассмотренные операции таблиц символов. 
Например, программа 15.9 разрешает не указывать отдельные символы в искомом 
ключе и выводит все ключи в структуре данных, которые соответствуют указанным 
цифрам ключа поиска. Подобный пример показан на рис. 15.19. Очевидно, что за счет 
внесения небольших изменений, эту программу можно приспособить к посещению 
всех соответствующих ключей, как это делается для выполнения операции зоП , а не 
просто для их вывода (см. упражнение 15.58). 
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С помощью ТЗТ-деревьев легко решается еще не- 
сколько аналогичных задач. Например, можно посе- 
тить все ключи в структуре данных, которые отлича- 
ются от ключа поиска не более чем в одной позиции 
цифры (см. упражнение 15.59). Операции этого типа 
требуют больших затрат или невозможны в случае 
применения других реализаций таблиц символов. Эти 
и многие другие задачи, когда не требуется строгое 
соответствие со строкой поиска, будут подробно рас- 
сматриваться в части 5. 

Раігісіа-деревья предоставляют несколько анало- 
гичных преимуществ; основное практическое преиму- 
щество ТЗТ-деревьев по сравнению с раігісіа-деревь- 
ями заключается в том, что они обеспечивают доступ 
к байтам, а не к разрядам ключей. Одна из причин, 
почему это различие рассматривается как преимуще- 
ство, связана с тем, что предназначенные для этого 
машинные операции реализованы во многих компь- 
ютерах, а С++ обеспечивает непосредственный доступ 
к байтам символьных строк в стиле С. Другая причи- 
на состоит в том, что в некоторых приложениях рабо- 
та с байтами в структуре данных естественным обра- 
зом отражает байтовую ориентацию самих данных в 
некоторых приложениях — например, при решении 
задачи поиска частичного соответствия, описанной в 
предыдущем абзаце (хотя, как будет показано в главе 
18, поиск частичного соответствия можно ускорить за 
счет продуманного использования доступа к разряда). 

Исходя из желания избежать однопутевого ветвле- 
ния в ТЗТ-деревьях, стоит заметить, что большинство 
однопутевых ветвлений происходит на концах ключей 



РИСУНОК 15.19 ПОИСК 
ЧАСТИЧНОГО СООТВЕТСТВИЯ 
В Т$Т-ДЕРЕВЬЯХ 

Для нахождения всех ключей в 
Т8Т -дереве, которые 
соответствуют шаблону і * 

( верхний рисунок), мы выполняем 
поиск і в В8Т-дереве для первого 
символа. В данном примере мы 
находим слово (единственное 
слово, соответствующее 
шаблону), пройдя две 
однопутевых ветви. Для поиска в 
соответствии с менее строгим 
шаблоном наподобие *о * (нижний 
рисунок) в В8Т -дереве первого 
символа мы посещаем все узлы, но 
в дереве второго символа только 
те, которые соответствуют 
символу о, со временем выходя на 
слова /ог и по\ѵ. 


и не происходит, если развить структуру до стандартной реализации многопутевого 
ігіе-дерева, в которой записи хранятся в листьях, помещенных в самом верхнем уров- 
не Ігіе-дерева различения ключей. Можно также поддерживать индексацию байтов, 
подобно тому как это делается в раігісіа-деревьях (см. упражнение 15.65), однако для 
простоты мы опускаем это изменение. Комбинация многопутевого ветвления и пред- 
ставления в виде ТЗТ-дерева и сама по себе достаточно эффективна во многих при- 
ложениях, но свертывание однопутевого ветвления в стиле раігісіа-деревьев еще 


больше повышается производительность в тех случаях, когда ключи, скорее всего, 
совпадают с длинными последовательностями (см. упражнение 15.72). 

Еще одно простое усовершенствование поиска, основанного на использовании 
ТЗТ-деревьев, — использование большого явного многопутевого узла в корне. Для 
этого проще всего хранить таблицу К ТЗТ-деревьев: по одному для каждого возмож- 
ного значения первой буквы в ключах. Если значение Я невелико, можно использо- 
вать первые две буквы ключей (и таблицу размером Я 2 ). Чтобы этот метод был эф- 
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фективен, ведущие цифры ключей должны быть равномерно распределенными. Ре- 
зультирующий гибридный алгоритм поиска соответствует тому, как человек мог бы 
искать фамилии в телефонном справочнике. Вначале принимается многопутевое ре- 
шение ("Так, посмотрим, слово начинается с 'А’"), вслед за чем, вероятно, принима- 
ется несколько двухпутевых решений ("Оно должно располагаться перед ’Апгігешз’, но 
после 'Аіікеп'"), после чего сравнивается следующий символ ("'АІ^опціигГ, ...Нет, 
'А1 §огіігп 8' отсутствует, поскольку ни одно слово не начинается с ’А1§ог’!"). 

Программы 15.10-15.12 включают в себя основанную на применении Т8Т-дерева 
реализацию операций зеагсН и іпзегі, в которой используется /^-путевое ветвление в 
корне и хранение элементов в листьях (чтобы не было однопутевых ветвей, если клю- 
чи различны). Скорее всего, эти программы будут относиться к наиболее быстрым 
программам выполнения поиска с использованием строковых ключей. Лежащая в их 
основе структура Т8Т-дерева может поддерживать также набор других операций. 

Программа 15.10 Определения типов узлов в гибридном Т5Т-дереве 

Этот код определяет структуры данных, связанные с программами 15.11 и 15.12, 
которые предназначены для реализации таблицы символов с использованием ТЗТ- 
деревьев. В корневом узле используется Я-путевое ветвление: корень — это мас- 
сив НеасІ5, состоящий из Я связей и индексированный по первым цифрам ключей. 
Каждая связь указывает на Т5Т-дерево, построенное из всех ключей, которые на- 
чинаются с соответствующих цифр. Этот гибрид сочетает в себе преимущества Ігіе- 
деревьев (быстрый поиск при помощи индексации, реализуемый в корне) и ТЗТ- 
деревьев (эффективное использование памяти, обусловленное существованием по 
одному узлу для каждого символа, не считая корня). 

з^ЬгисЬ посіе 

{ Нет Пет; іпѣ ё; посіе *1, *т, *г; 

посіе (Нет х, іпѣ к) 

{ Нет = х; сі = к; 1 = 0; т = 0; г = 0; } 

посіе (посіе* Ь, іпѣ к) 

{ <і = к; 1 = 0; т = Ь; г = 0; } 

іпѣ іпѣегпа1() 

{ геЪигп сі != ВДЬЬёідИ; } 

}; 

ѣуреёе€ посіе *1іпк ; 

Ііпк Ьеаёз [К] ; 

Нет пиІШет; 


Программа 15.11 Вставка в гибридное Т5Т-дерево для АТД таблицы символов 

В этой реализации операции іпзегі с использованием ТЗТ-деревьев элементы хра- 
нятся в листьях, что, по существу, является обобщением программы 15.3. В ней Я- 
путевое ветвление используется для первого символа, а отдельные ТЗТ-деревья — 
для всех слов, начинающихся с каждого символа. Если поиск завершается на нуле- 
вой связи, мы создаем лист для хранения элемента. Если поиск завершается в ли- 
сте, мы создаем внутренние узлы, необходимые для различения найденного и ис- 
комого ключей. 


ргіѵаѣе : 

Ііпк зр1И(1іпк р , Ііпк д, іпѣ сі) 

{ іпЪ рё = ёідИ (р->Иет. кву () , ё) , 

дё = ёідИ (д->Иет. кеу () , ё) ; 
Ііпк Ь = пеѵг поёе (пиІІИет, дё) ; 
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±± (рсі < цб.) 

{ 1:->т = <і; ѣ->1 = п еѵ/ посіе(р, рсі) ; } 

і* (рсі = я<і) 

{ 1:->т = зр1і , Ь(р / ч, <і+1) ; } 

ІИ (рсі > ч<і) 

{ 1:->т в с{; 1:->г = пеѵ посіе(р, рсі) ; } 

гѳіигп Ь ; 

} 

Ііпк пѳѵехѣ ( I ѣет х) 

{ гѳѣигп пѳѵ посіѳ(х, ШЫ.сііді1:) ; } 

ѵоісі іпзег‘ЬК(1±пк& Ь, Іѣет х, іпі: сі) 

{ іп-Ь і = <ііді < Ь(х.кеу () , <і) ; 

(Ь = 0) 

{ Ь = пеѵ по сіе (пекехѣ (х) , і) ; геЪигп; } 
ІИ ( ! Ь->іпіегпа1 ( ) ) 

{ Ь = зрііѣ (пѳѵѳх-Ь (х) , Ь, сі) ; гвѣит; } 
ІИ (і < Ь->сі) іп8ег‘ЬК(Ь->1 , х, сі) ; 

ІИ (і == Ь->сі) іпзег “01(11-- >31, х, <і+1) ; 

ІИ (і > Ь->сі) іпзег‘ЬК(Ь->г , х, сі) ; 

> 

риЫіс: 

5Т (іп-Ь хпахИ) 

{ зРог (іп-Ь і = 0; і < К; і++) Ьеасіз[і] =0; } 

ѵоісі іпзегѣ (Іѣет х) 

{ іпзегЪК (Ьеасіз [сіідіі: (х . кеу () , 0)], х, 1); } 


Программа 15.12 Поиск в гибридном Т$Т-дереве для АТД таблицы символов 


Эта реализация операции зеагсіі для Т5Т-деревьев (построенных с помощью про- 
граммы 15.11) подобна поиску с применением многопутевого Ігіе-дерева, но в ней 
используются только три, а не Я связей для каждого узла (за исключением корня). 
Цифры ключа используются для перемещения вниз по дереву, которое завершает- 
ся либо на нулевой связи (промах при поиске), либо в листе, содержащем ключ, ко- 
торый либо равен (попадание при поиске), либо не равен (промах при поиске) ис- 
комому. 


ргіѵаѣе : 

Іѣет зеагсЬК(1іпк Ь, Кеу ѵ, іпі: сі) 

{ ііЕ (Ь == 0) гвЪигп пиШѣет; 

ІИ (Ь-^іп'ЬегпаІ () ) 

{ іпЬ і = сіідіі: (ѵ, сі) , к = Ь->сі; 

ІИ (і < к) ге1:игп зеагсЬК (Ь->1 , ѵ, сі) ; 
і^ (і == к) геѣигп зеагсЬК(Ь->т, ѵ, сі+1) ; 
іИ (і > к) гвѣит зеагсЬК(Ь->г , ѵ, сі) ; 

} 

ІИ (ѵ — Ь->і1:ет.кеу () ) геѣигп Ь->і1:ет; 
геѣигп пиШѣет; 

} 

риЫіс: 

ІЪет зеагсЬ(Кеу ѵ) 

{ ге-Ьигп зѳагсКК (Ьѳасів [сіідіі: (ѵ, 0)], ѵ, 1); } 


В таблице символов, которая разрастается до очень больших размеров, может по- 
требоваться согласовать коэффициент ветвления с размером таблицы. В главе 16 бу- 
дет показан систематический способ увеличения многопутевого ігіе-дерева, чтобы 
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можно было воспользоваться преимуществами многопутевого поиска при произволь- 
ных размерах файлов. 

Лемма 15.8 Для выполнения поиска или вставки в Т5Т-дереве, содержащем элементы 
в листьях ( т.е не имеющем ни одной однопутевой ветви в нижней части дерева) и Я 1 - 
путевые ветви в корне , требуется приблизительно ІпТѴ — 1 \пЯ обращений к байтам для 
N ключей , которые являются случайными строками байтов. При этом количество тре- 
буемых связей равно К 1 (для корневого узла) плюс небольшое постоянное число , кратное 
N. 

Эти грубые оценки непосредственно следуют из леммы 15.6. При оценке затрат 
времени мы принимаем, что все узлы в пути поиска, за исключением нескольких 
узлов у вершины, количество которых постоянно, действуют по отношению к Я 
значениям символов подобно рандомизированным В8Т-деревьям. Поэтому мы 
просто умножаем значение времени на ІпЯ. При оценке затрат памяти предпола- 
гается, что узлы на нескольких первых уровнях заполнены Я значениями симво- 
лов, а узлы на нижних уровнях содержат только постоянное количество значений 
символов. 

Например, при наличии 1 миллиарда случайных ключей, представляющих собой 
строки байтов, при Я = 256 и при использовании на верхнем уровне таблицы, размер 
которой равен Я 2 = 65536, для выполнения типового поиска потребуется около 
ІпІО 9 — 2 1п 256 * 20.7 — 11.1 = 9.6 сравнений байтов. Использование таблицы в верх- 
ней части структуры уменьшает затраты на поиск в два раза. Если ключи являются 
действительно случайными, этой производительности можно достичь с помощью более 
непосредственных алгоритмов, в которых используются ведущие байты ключа и таб- 
лица существования, как было описано в разделе 14.6. В случае применения Т8Т-де- 
ревьев такую же производительность можно получить и тогда, когда ключи имеют ме- 
нее случайную структуру. 

Интересно сравнить Т8Т-деревья без многопутевых ветвей в корне со стандарт- 
ными В8Т-деревьями при использовании случайных ключей. В соответствии с леммой 
15.8, для выполнения поиска в Т8Т-дереве потребуется около 1п N сравнений байтов , 
в то время как в стандартных В8Т-деревьях требуется около ІпУѴ сравнений ключей. 
В верхней части В8Т-дерева сравнения ключей могут быть выполнены путем срав- 
нения всего одного байта, но в нижней части для выполнения сравнения ключа мо- 
жет потребоваться несколько сравнений байтов. Это различие в производительности 
не является решающим. Причины, по которым при использовании строковых ключей 
Т8Т-деревья предпочтительнее стандартных В8Т-деревьев, таковы: они обеспечива- 
ют быстрое обнаружение промаха при поиске; они непосредственно приспособлены 
для многопутевого ветвления в корне; и (что наиболее важно) они хорошо подходят 
для ключей в виде строк байтов, не являющихся случайными , поэтому длина поиска не 
превышает длину ключа в Т8Т-дереве. 

Некоторые приложения не могут воспользоваться преимуществом /^-путевого вет- 
вления в корне — например, все ключи в примере с библиотечными кодами из рис. 
15.18 начинаются с буквы Ь или \Ѵ. Для других приложений может требоваться более 
высокий коэффициент ветвления в корне — например, как отмечалось, если бы клю- 
чи были случайными целыми числами, пришлось бы использовать максимально боль- 
шую таблицу. Подобные зависимости от приложения можно задействовать при на- 
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стройке алгоритма с целью достижения максимальной производительности, но не 
следует забывать о том, что одно из наиболее привлекательных свойств Т8Т-деревьев 
— возможность не беспокоиться о подобной зависимости от приложений при обеспе- 
чении достаточно высокой производительности без каких-либо настроек. 

Вероятно, наиболее важное свойство Ігіе-деревьев или Т8Т-деревьев с записями в 
листьях заключается в том, что их характеристики производительности не зависят от 
длины ключа. Следовательно, их можно использовать для ключей произвольной дли- 
ны. В разделе 15.5 рассмотрено одно такое особенно эффективное приложение. 

Упражнения 

о 15.49 Нарисуйте Ігіе-дерево существования, образованное в результате вставки 
слов по№ і§ іЬе Ііше Гог аіі §оо<1 реоріе Іо соше іЬе аій оГ іЬеіг рагіу в первоначаль- 
но пустое ігіе-дерево. Используйте 27-путевое ветвление. 

о 15.50 Нарисуйте Т8Т-дерево существования, образованное в результате вставки 
слов по\ѵ і§ ІЬе Ііше Гог аіі §ооі1 реоріе Іо соте іЬе аіЛ оГ іЬеіг рагіу в первоначаль- 
но пустое Т8Т-дерево. 

> 15.51 Нарисуйте 4-путевое Ігіе-дерево, образованное в результате вставки эле- 
ментов с ключами 01010011 00000111 00100001 01010001 11101100 00100001 
10010101 01001010 в первоначально пустое Ігіе-дерево, в котором используются 
2-разрядные байты. 

О 15.52 Нарисуйте Т8Т-дерево, образованное в результате вставки элементов с клю- 
чами 01010011 00000111 00100001 01010001 11101100 00100001 10010101 
01001010 в первоначально пустое Т8Т-дерево, в котором используются 2-разряд- 
ные байты. 

> 15.53 Нарисуйте Т8Т-дерево, образованное в результате вставки элементов с клю- 
чами 01010011 00000111 00100001 01010001 11101100 00100001 10010101 
01001010 в первоначально пустое Т8Т-дерево, в котором используются 4-разряд- 
ные байты. 

о 15.54 Нарисуйте Т8Т-дерево, образованное в результате вставки элементов с клю- 
чами библиотечных кодов из рис. 15.18 в первоначально пустое Т8Т-дерево. 

о 15.55 Измените приведенную реализацию поиска и вставки в многопутевом Ігіе- 
дереве (программа 15.7), чтобы она работала при условии, что все ключи (фикси- 
рованной длины) являются ѵѵ-байтовыми словами (т.е. не требуется указание конца 
ключа). 

о 15.56 Измените приведенную реализацию поиска и вставки в Т8Т-дереве (про- 
грамма 15.8), чтобы она работала при условии, что все ключи (фиксированной 
длины) являются ѵѵ-байтовыми словами (т.е. не требуется указание конца ключа). 

15.57 Экспериментально сравните время и объем памяти, требуемые для 8-путе- 
вого Ігіе-дерева, построенного из случайных целых чисел с использованием 3-раз- 
рядных байтов, для 4-позиционого ігіе-дерева, построенного из случайных целых 
чисел с использованием 2-разрядных байтов, и для бинарного ігіе-дерева, постро- 
енного из тех же ключей, при А г = 10 3 , 10 4 , ІО 5 и ІО 6 (см. упражнение 15.14). 

15.58 Измените программу 15.9, чтобы подобно операции зогі она обеспечивала 
посещение всех узлов, которые соответствуют искомому ключу. 
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о 15.59 Создайте функцию, которая выводит все ключи в Т8Т-дереве, отличающи- 
еся от искомого не более чем в к позициях для заданного целочисленного значе- 
ния к. 

• 15.60 Приведите полную характеристику худшего случая длины внутреннего пути 
Л-путевого Ігіе-дерева с N различными ѵѵ-разрядными ключами. 

• 15.61 Разработайте реализацию таблицы символов с использованием многопуте- 
вых ігіе-деревьев, которая включает в себя деструктор, конструктор копирования 
и перегруженную операцию присваивания, а также поддерживает операции 
сотігисі, соипі, ітегі, гетоѵе и ]оіп для АТД первого класса таблицы символов с под- 
держкой дескрипторов клиента (см. упражнения 12.6 и 12.7). 

• 15.62 Разработайте реализацию таблицы символов с использованием многопуте- 
вых Т8Т-деревьев, которая включает в себя деструктор, конструктор копирования 
и перегруженную операцию присваивания, а также поддерживает операции 
сотігисі } соипі у ітегі, гетоѵе и ^оіп для АТД первого класса таблицы символов с под- 
держкой дескрипторов клиента (см. упражнения 12.6 и 12.7). 

> 15.63 Создайте программу, которая выводит все ключи в /?-путевом Ігіе-дереве, 
имеющие те же начальные 1 байтов, что и заданный искомый ключ. 

• 15.64 Измените приведенную реализацию поиска и вставки в многопутевом Ігіе- 
дереве (программа 15.7), чтобы исключить однопутевое ветвление, как это было 
сделано для раігісіа-деревьев. 

• 15.65 Измените приведенную реализацию поиска и вставки в Т8Т-дерево (про- 
грамма 15.8), чтобы исключить однопутевое ветвление, как это было сделано для 
раігісіа-деревьев. 

15.66 Создайте программу, которая выполняет балансировку В8Т-деревьев, пред- 
ставляющих внутренние узлы Т8Т-дерева (реорганизует их так, чтобы все их вне- 
шние узлы располагались на одном из двух уровней). 

15.67 Создайте версию операции ітегі для Т8Т-деревьев, которая поддерживает 
представление всех внутренних узлов в виде сбалансированного дерева (см. уп- 
ражнение 15.66). 

• 15.68 Приведите полную характеристику худшего случая длины внутреннего пути 
Т8Т-дерева, содержащего N различных ^-разрядных ключей. 

15.69 Создайте программу, генерирующую случайные 80-байтовые строковые 
ключи (см. упражнение 10.19). Воспользуйтесь этим генератором ключей для по- 
строения 256-путевого Ігіе-дерева, содержащего N случайных ключей при УѴ = 10 3 , 
10 4 , ІО 5 и ІО 6 , с применением операции зеагсН , а затем — операции ітегі в случае 
промаха при поиске. Программа должна выводить общее количество узлов в каж- 
дом Ігіе-дереве и общее время, затраченное на построение каждого ігіе- дерева. 

15.70 Выполните упражнение 15.69 для Т8Т-деревьев. Сравните полученные ха- 
рактеристики производительности с характеристиками Ігіе-деревьев. 

15.71 Создайте генератор, который генерирует ключи, перемешивая случайную 
80-байтовую последовательность (см. упражнение 10.21). Воспользуйтесь получен- 
ным генератором ключей для построения 256-путевого Ігіе-дерева, содержащего 
N случайных ключей при N = 10 3 , 10 4 , 10 5 и Ю 6 , с применением операции зеагсИ, 
а затем — операции ітегі в случае промаха при поиске. Сравните полученные ха- 
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рактеристики производительности с характеристиками ігіе-дерева из упражнения 
15.69. 

о 15.72 Создайте генератор ключей, который генерирует 30-байтовые случайные 
строки, состоящие из трех полей: 4-байтового поля, содержащего одну из 10 за- 
данных строк, 10-байтового поля, содержащего одну из 50 заданных строк, 1 -бай- 
тового поля, содержащего одно из двух заданных значений, и 15-байтового поля, 
содержащего случайные, выровненные по левому краю буквенные строки, длина 
которых с равной вероятностью может составлять от четырех до 15 символов (см. 
упражнение 10.23). Воспользуйтесь этим генератором ключей для построения 256- 
путевого *гіе-дерева, содержащего N случайных ключей при N = ІО 3 , ІО 4 , 10 5 и ІО 6 , 
с применением операции зеагск , а затем — операции іпзегі в случае промаха при 
поиске. Программа должна выводить общее количество узлов в каждом Ігіе-дереве 
и общее время, затраченное на построение каждого /пе-дерева. Сравните полу- 
ченные характеристики производительности с характеристиками для случайных 
строковых ключей (см. упражнение 15.69). 

15.73 Выполните упражнение 15.72 для случая Т8Т-деревьев. Сравните получен- 
ные характеристики производительности с характеристиками для Ігіе-деревьев. 

15.74 Разработайте реализацию операций зеагск и іпзегі для ключей в виде строк 
байтов при использовании многопутевых деревьев поразрядного поиска. 

І> 15.75 Нарисуйте 27-путевое 08Т-дерево (см. упражнение 15.74), образованное в 
результате вставки элементов с ключами ікт і§ іЬе Ііше Гог аІІ §оой реоріе Іо соте 
Ше аій оГ іЬеіг рагіу в первоначально пустое 08Т-дерево. 

• 15.76 Разработайте реализацию поиска и вставки в многопутевое Ігіе-дерево, в ко- 
тором связные списки применяются для представления узлов ігіе-дерева (в отли- 
чие от представления в виде В8Т-дерева, которое используется для Т8Т-деревьев). 
Определите экспериментальным путем, что использовать эффективнее: упорядо- 
ченные или неупорядоченные списки, и сравните эту реализацию с реализацией, 
основанной на использовании Т8Т-деревьев. 

15.5 Алгоритмы индексирования текстовых строк 

В разделе 12.7 был рассмотрен процесс построения строкового индекса , и В8Т-де- 
рево со строковыми указателями использовалось для обеспечения возможности опре- 
деления того, присутствует ли строка с заданным ключом в очень большом тексте. В 
этом разделе будут рассмотрены более сложные алгоритмы использования многопу- 
тевых Ігіе-деревьев, но отправная точка при этом остается той же. Каждая позиция 
в тексте считается началом строкового ключа, который простирается до конца тек- 
ста; за счет использования строковых указателей из этих ключей строится таблица 
символов. Все ключи различны (например, имеют различную длину) и большинство 
из них очень велики. Цель поиска — определить, является ли заданный искомый 
ключ префиксом одного из ключей в индексном указателе, что эквивалентно выяс- 
нению того, присутствует ли искомый ключ где-либо в текстовой строке. 

Дерево поиска, которое построено из ключей, определенных строковыми указа- 
телями внутри текстовой строки, называется деревом суффиксов . Можно воспользо- 
ваться любым алгоритмом, допускающим существование ключей переменной длины. 
В этом случае особенно подходят методы, основанные на применении Ігіе-деревь- 



Глава 15, Поразрядный поиск 





ев, поскольку (за исключением методов с использованием Ігіе-деревьев, выполняю- 
щих однопутевое ветвление в окончаниях ключей) их время выполнения зависит не 
от длины ключей, а только от количества цифр, необходимых для различения. Это 
прямо противоположно, например, алгоритмам хеширования, которые нельзя непос- 
редственно применить для решения этой задачи, поскольку их время выполнения 
пропорционально длине ключей. 

На рис. 15.20 приведены примеры строковых индексов, построенных с использо- 
ванием В$Т-деревьев, раігісіа-деревьев и Т8Т-деревьев (с листьями). В этих индек- 
сах используются только ключи, которые начинаются с граничных символов слов; 
индексирование, начинающееся с границ символов, обеспечило бы более сложное 
индексирование, но при этом использовался бы гораздо больший объем памяти. 

Строго говоря, даже текст, состоящий из случайной строки, не позволяет случай- 
ному набору ключей превратится в соответствующий индекс (поскольку ключи не 
являются независимыми). Однако, в используемых на практике приложениях индек- 
сирования редко приходится иметь дело со случайными текстами, и это теоретичес- 
кое несоответствие не помешает нам воспользоваться преимуществом эффективных 
реализаций индексирования, которые поддерживают поразрядные методы. Мы воз- 
держимся от подробного рассмотрения характеристик производительности при ис- 
пользовании каждого из алгоритмов для построения строкового индекса, поскольку 
многие ограничения, проанализированные для общих таблиц символов со строковы- 
ми ключами, действуют также и при решении задачи индексирования строк. 





РИСУНОК 15.20 ПРИМЕРЫ ИНДЕКСИРОВАНИЯ ТЕКСТОВЫХ СТРОК 

На этих схемах показаны индексы текстовых строк , построенные из текста саіі те ізктаеі зоте 
уеагз а%о пеѵег тіпй кок Іоп§ ргесізеіу... с использованием ВЗТ-дерева (вверху), раігісіа-дерева (в 
центре) и Т5Т-дерева (внизу). Узлы, содержащие строковые указатели, отображены первыми 
четырьмя символами , расположенными в указываемой указателем точке. 
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В случае типового текста реализации с использованием стандартных В8Т-деревь- 
ев, вероятно, должны быть рассмотрены в первую очередь, поскольку их легко реа- 
лизовать (см. программу 12.10). Скорее всего, для типовых приложений это решение 
должно обеспечивать хорошую производительность. Один из побочных эффектов вза- 
имной зависимости ключей — особенно, при построении строкового индекса для каж- 
дой позиции символа — то, что худший случай В8Т-деревьев не порождает особые 
проблемы в очень больших текстах, поскольку несбалансированные В8Т-деревья воз- 
никают только в исключительно причудливых конструкциях. 

раігісіа-деревья изначально разрабатывались для приложений строкового индек- 
сирования. Для использования программ 15.5 и 15.4 потребуется лишь обеспечить ре- 
ализацию функции Ъіі, чтобы при заданном строковом указателе и целочисленном 
значении / она возвращала і-тый разряд строки (см. упражнение 15.82). На практи- 
ке зависимость высоты раігісіа-дерева, реализующего индекс текстовой строки, бу- 
дет логарифмической. Более того, раігісіа-дерево обеспечит быстрые реализации по- 
иска для обнаружения промахов, поскольку нет необходимости исследовать все байты 
ключа. 

Т8Т-деревья предоставляют несколько преимуществ в плане производительности, 
характерных для раігісіа-деревьев, их просто реализовать и они используют преиму- 
щества встроенных операций доступа к байтам, которые в современных компьюте- 
рах обычно реализованы. Кроме того, они поддаются простым реализациям, подоб- 
ным программе 15.9, которые могут решать и более сложные задачи, нежели 
установка полного соответствия с искомым ключом. Чтобы использовать Т8Т-дере- 
вья для построения строкового индекса, необходимо удалить код, обрабатывающий 
конечные части ключей в структуре данных, поскольку ни одна строка не является 
префиксом другой и, следовательно, никогда не придется сравнивать строки вплоть 
до их конечных символов. Эта модификация включает в себя изменение определения 
орегаіог== в интерфейсе типа элемента, чтобы две строки считались равными, если 
одна из них — префикс другой, как это было сделано в разделе 12.7, поскольку мы 
будем сравнивать ключ поиска (короткий) с текстовой строкой (длинной), начиная с 
некоторой позиции текстовой строки. Третье удобное изменение — • хранение в каж- 
дом узле строковых указателей, а не символов, чтобы каждый узел в дереве ссылал- 
ся на позицию в текстовой строке (позицию, следующую за первым вхождением стро- 
ки, определенной символами в равных ветвях от корня до этого узла). Реализация 
перечисленных изменений — интересное и поучительное упражнение, ведущее к со- 
зданию гибкой и эффективной реализации индексирования текстовых строк (см. уп- 
ражнение 15.81). 

Несмотря на все описанные преимущества, имеется одно важное обстоятельство, 
которым мы пренебрегли при рассмотрении использования В8Т-деревьев, раігісіа- 
деревьев или Т8Т-деревьев для типичных приложений индексирования текста: сам по 
себе текст фиксирован, поэтому нет необходимости поддерживать динамические опе- 
рации іпзегі, как мы привыкли это делать. То есть, как правило, индекс строится один 
раз, а затём без каких-либо изменений используется для выполнения огромного 
объема поисков. Следовательно, динамические структуры данных типа В8Т-деревь- 
ев, раігісіа-деревьев или Т8Т-деревьев могут оказаться вообще не нужными. Базовый 
алгоритм, подходящий в данной ситуации — бинарный поиск с использованием стро- 
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ковых указателей (см. раздел 12.4). Индекс — это набор строковых указателей; по- 
строение индекса — это сортировка строковых указателей. Основное преимущество 
использования бинарного поиска по сравнению с динамическими структурами дан- 
ных заключается в экономии используемого объема памяти. Для индексирования тек- 
стовой строки в N позициях при помощи бинарного поиска требуется всего лишь N 
строковых указателей; и напротив, для индексирования строки в N позициях за счет 
использования метода, основанного на деревьях, требуется по меньшей мере 3 N ука- 
зателей (один строковый указатель для текста и две связи). Как правило, индексные 
указатели текста огромны, поэтому бинарный поиск может оказаться более предпоч- 
тительным, т.к. гарантировано обеспечивает логарифмическую зависимость времени 
поиска, но при этом задействуется лишь одна треть объема памяти, используемого 
методами, основанными на деревьях. Однако, при наличии достаточного объема до- 
ступной памяти ТЗТ-деревья позволяют реализовать более быстрые операции зеагсИ 
для многих приложений, поскольку, в отличие от бинарного поиска, перемещение по 
ключам выполняется без возвратов. 

Для случая очень большого текста, когда планируется выполнять лишь небольшое 
количество поисков, построение полного индексного указателя, скорее всего, будет 
неоправданным. В части 5 рассматривается задача поиска строк , при которой без ка- 
кой-либо предварительной обработки требуется быстро определить, содержит ли текст 
заданный искомый ключ. В ней также исследуется ряд задач поиска строк, которые 
лежат между двумя крайними ситуациями без выполнения какой-либо предваритель- 
ной обработки и построения полного индексного указателя для огромного текста. 

Упражнения 

> 15.77 Нарисуйте 26-путевое 08Т-дерево, образованное в результате построения 
индекса текстовой строки из слов пон' і§ 11іе Ііше Гог аіі §оос1 реоріе Іо соте ІЬе аісі 
оГ Йіеіг рагіу. 

> 15.78 Нарисуйте 26-путевое Ігіе-дерево, образованное в результате построения 
индекса текстовой строки из слов пшѵ І8 іЪе Ііте Гог аіі §оос! реоріе Іо соте ІНе аісі 
оГ ІЬеіг рагіу. 

> 15.79 Нарисуйте Т8Т-дерево, образованное в результате построения индекса тек- 
стовой строки из слов шт і§ ІНе Ііте Гог аіі §оос! реоріе Іо соте Ійе аісі оГ ІНеіг рагіу 
в стиле рис. 15.20. 

> 15.80 Нарисуйте Т8Т-дерево, образованное в результате построения индекса тек- 
стовой строки из слов по\ѵ і§ 11іе Ііте Гог аіі §оос! реоріе Іо соте ІНе аісі оГ Шеіг рагіу, 
при использовании описанной в тексте реализации, когда Т8Т-дерево содержит 
строковые указатели на каждый из узлов. 

о 15.81 Измените реализации поиска и вставки в Т8Т-дерево, приведенные в про- 
граммах 15.11 и 15.12, так, чтобы обеспечить индексирование строк, основанное 
на Т8Т-дереве. 

о 15.82 Реализуйте интерфейс, который позволяет раігісіа-алгоритму обрабатывать 
строковые ключи в стиле С (т.е. массивы символов), как если бы они были стро- 
ками разрядов. 
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о 15.83 Нарисуйте раігісіа-дерево, образованное в результате построения индекса 
текстовой строки из слов по^ѵ І8 Йіе Іігпе Гог аіі §ооё реоріе Іо согпе ІЬе аісі оГ Йіеіг 
раіТу при использовании 5-разрядного двоичного кодирования, когда /-тая буква 
алфавита хранится в виде двоичного представления числа /. 

15.84 Объясните, почему идея улучшения бинарного поиска путем использования 
того же базового принципа, на котором основываются ТЗТ-деревья (сравнение 
символов, а не строк), оказывается неэффективной. 

15.85 Найдите в системе большой (размером, по меньшей мере, ІО 6 байтов) тек- 
стовый файл и сравните высоту и длину внутреннего пути стандартного В8Т-де- 
рева, раігісіа-дерева и ТЗТ-дерева, полученных в результате построения индекс- 
ного указателя для данного файла. 

15.86 Экспериментально сравните высоту и длину внутреннего пути стандартно- 
го ВЗТ-дерева, раігісіа-дерева и ТЗТ-дерева, полученных в результате построения 
индексного указателя для текстовой строки, состоящей из N случайных символов 
32-символьного алфавита при N = ІО 3 , ІО 4 , ІО 5 и ІО 6 . 

о 15.87 Создайте эффективную программу для определения самой длинной повто- 
ряющейся последовательности в очень большой текстовой строке. 

о 15.88 Создайте эффективную программу для определения 10-символьной после- 
довательности, чаще всего встречающейся в очень большой текстовой строке. 

• 15.89 Постройте строковый индексный указатель, который поддерживает опера- 
цию, возвращающую количество вхождений ее аргумента в индексированном тек- 
сте, а также, подобно операции зогі, поддерживает операцию зеагсН , обеспечива- 
ющую посещение всех позиций в тексте, которые соответствуют искомому ключу. 

о 15.90 Опишите текстовую строку, состоящую из N символов, для которой основан- 
ный на применении ТЗТ-дерева строковый индекс работает особенно плохо. Оце- 
ните затраты на построение индекса для этой же строки с использованием В8Т- 
дерева. 

15.91 Предположим, что требуется построить индекс для случайной 7Ѵ-разрядной 
строки для позиций разрядов, кратных 16. Экспериментально определите, какие 
размеры байтов (1, 2, 4, 8 или 16) ведут к наименьшему времени построения ин- 
декса, основанного на использовании ТЗТ-дерева, при N = ІО 3 , 10 4 , ІО 5 и ІО 6 . 




Внешний поиск 


А лгоритмы поиска, которые подходят для доступа к 
элементам в больших файлах, имеют огромное прак- 
тическое значение. Поиск — это фундаментальная опера- 
ция для больших наборов данных, и для ее выполнения 
безусловно требуется значительная часть ресурсов, ис- 
пользуемых во многих вычислительных средах. С появле- 
нием глобальных сетей появилась возможность собирать 
практически любую информацию, требуемую для выпол- 
нения задачи — проблема заключается только в возмож- 
ности эффективного поиска. В этой главе рассмотрены 
базовые механизмы, которые могут поддерживать эффек- 
тивный поиск в самых больших таблицах символов, какие 
только можно себе представить. 

Подобно алгоритмам из главы 11, алгоритмы, рассмат- 
риваемые в этой главе, подходят для множества различ- 
ных типов аппаратных и программных сред. Соответ- 
ственно, мы будем стремиться к исследованию алгоритмов 
на более абстрактном уровне, нежели это могут дать про- 
граммы на С++. Однако, приведенные далее алгоритмы 
также непосредственно обобщают знакомые методы по- 
иска и удобно выражаются в виде программ на С++, по- 
лезных во многих ситуациях. В этой главе будет исполь- 
зоваться подход, отличный от использованного в главе 11: 
мы в деталях разработаем конкретные реализации, рас- 
смотрим их основные характеристики производительнос- 
ти, а затем способы, в соответствие с которыми лежащие 
в основе реализаций алгоритмы могут быть сделаны по- 
лезными в возникающих реальных ситуациях. Вообще го- 
воря, название этой главы не совсем верно, поскольку в 
ней алгоритмы будут представляться в виде программ на 
С++, которые можно было бы заменить другими реали- 
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зациями таблиц символов из рассмотренными в главах 12—15. Будучи таковыми, они 
вообще не являются "внешними" методами. Тем не менее, они построены в соответ- 
ствии с простой абстрактной моделью, что превращает их в подробное описание того, 
как строить методы поиска для конкретных внешних устройств. 

Подробные абстрактные модели менее полезны, чем применительно к сортировке, 
поскольку связанные с ними затраты весьма невелики для многих важных приложе- 
ний. В основном нас будут интересовать методы поиска в очень больших файлах, 
хранящихся на внешних устройствах наподобие дисков, которые обеспечивают быс- 
трый доступ к произвольным блокам данных. Для устройств типа ленточных накопи- 
телей, где допускается только последовательный доступ (похожая модель рассматри- 
валась в главе 11), поиск вырождается до тривиального (и медленного) метода 
считывания с начала файла до тех пор, пока поиск не будет завершен. Для дисковых 
устройств можно воспользоваться гораздо более эффективным подходом: как ни уди- 
вительно, методы, которые мы изучим, могут поддерживать операции зеагсН и іпзеп 
в таблицах символов, содержащих миллиарды и триллионы элементов, при использо- 
вании всего трех-четырех ссылок на блоки данных на диске. Такие системные пара- 
метры, как размер блока и отношение затрат на доступ к новому блоку к затратам 
на доступ к элементам внутри блока, влияют на производительность, но методы мож- 
но считать относительно не зависящими от этих параметров (в пределах значений, 
которые, скорее всего, будут встречаться на практике). Более того, большинство важ- 
ных шагов, которые необходимо предпринимать для подгонки методов под конкрет- 
ные реальные ситуации, вполне очевидны. 

Поиск — это фундаментальная операция для дисковых устройств. Как правило, 
файлы организованы так, чтобы можно было воспользоваться преимуществами кон- 
кретного устройства с целью максимально эффективного доступа к информации. 
Короче говоря, вполне можно предположить, что устройства, используемые для хра- 
нения очень больших объемов информации, построены именно для поддержки эф- 
фективных и простых реализаций операции зеагсН . В этой главе рассматриваются ал- 
горитмы, которые построены на несколько более высоком уровне абстракции, 
нежели базовые операции, обеспечиваемые дисковыми устройствами, и которые мо- 
гут поддерживать операцию іпзегі и другие динамические операции для таблиц сим- 
волов. Эти методы по сравнению с прямыми методами предоставляют такие же пре- 
имущества, какие деревья бинарного поиска и хеш-таблицы предоставляют по 
сравнению с бинарным и последовательным поиском. 

Во многих вычислительных средах разрешена непосредственная адресация для 
огромных объемов виртуальной памяти , которая полагается на систему в плане опре- 
деления эффективных способов обработки запросов данных любой программы. Рас- 
сматриваемые алгоритмы могут послужить также эффективными решениями задачи 
реализации таблицы символов в упомянутых средах. 

Массив информации, которая должна обрабатываться компьютером, называется 
базой данных. Значительная часть исследований посвящена методам построения, под- 
держания и использования баз данных. Большая часть этой работы выполняется в 
области создания абстрактных моделей и реализаций для поддержки операций зеагсН 
с более сложным критерием, нежели рассмотренное простое "соответствие отдельно- 
му ключу". В базе данных поиски могут основываться на критерии частичного соот- 
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ветствия, который может включать несколько ключей и возвращать большое количе- 
ство элементов. Методы этого типа затрагиваются в частях 5 и 6. В общем случае зап- 
росы на поиск достаточно сложны, чтобы зачастую приходилось выполнять последо- 
вательный поиск по всей базе данных, проверяя каждый элемент на соответствие 
критерию. Тем не менее, быстрый поиск крошечных фрагментов данных, соответ- 
ствующих конкретному критерию, в огромном файле — основная возможность в лю- 
бой системе баз данных, и многие современные базы данных строятся на основе опи- 
санных в этой главе механизмов. 

16.1 Правила игры 

Подобно тому как это было сделано в главе 11, будем считать, что последователь- 
ный доступ к данным требует значительно меньших затрат, чем непоследовательный 
доступ. Предметом моделирования будет определение ресурсов памяти, используе- 
мых для реализации таблицы символов при делении ее на страницы : непрерывные 
блоки информации, к которым может обеспечиваться эффективный доступ со сторо- 
ны дисковых устройств. Каждая страница будет содержать множество элементов; 
наша задача заключается в организации элементов внутри страниц таким образом, 
чтобы к любому элементу можно было обратиться путем чтения всего нескольких 
страниц. Мы будем предполагать, что время ввода/вывода, требуемое для считыва- 
ния страницы, неизмеримо больше времени, требуемого для доступа к конкретным 
элементам или для выполнения любых других вычислений, связанных с этой страни- 
цей. Во многих отношениях эта модель слишком упрощена, но она сохраняет дос- 
таточное количество характеристик внешних устройств хранения, чтобы можно было 
рассмотреть фундаментальные методы. 

Определение 16.1 Страница — это непрерывный блок данных. Зондирование — это 

первое обращение к странице. 

Нас интересуют реализации таблиц символов, в которых используется небольшое 
количество зондирований. Мы будем избегать конкретных предположений касатель- 
но размеров страницы и отношения времени, требуемого для зондирования, ко вре- 
мени, которое впоследствии потребуется для доступа к элементам внутри блока. Ожи- 
дается, что эти значения должны быть порядка 100-1000; большая точность не 
требуется, поскольку алгоритмы не особо чувствительны к этим значениям. 

Эта модель непосредственно применима, например, к файловой системе, в кото- 
рой файлы образуют блоки с уникальными идентификаторами и назначение которой 
состоит в поддержке эффективного доступа, вставки и удаления на основе этих иден- 
тификаторов. В блоке помещается определенное количество элементов, и затратами 
на обработку элементов внутри блока можно пренебречь по сравнению с затратами 
на считывание блока. 

Эта модель непосредственно применима и к системе виртуальной памяти, где мы 
просто ссылаемся на огромный объем памяти и предоставляем системе самой сохра- 
нять часто используемую информацию в хранилище с быстрым доступом (таком, как 
внутренняя память), а редко используемую информацию — в хранилище с медлен- 
ным доступом (таком, как диск). Многие компьютерные системы располагают слож- 
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ными механизмами страничной обработки, которые реализуют виртуальную память, 
храня недавно использовавшиеся страницы в кэше , к которому можно быстро обра- 
титься. Системы страничной обработки основываются на той же рассматриваемой аб- 
стракции: они делят диск на блоки и делают допущение, что затраты на первый дос- 
туп к блоку существенно превышают затраты на доступ к данным внутри блока. 

Как правило, такое абстрактное представление страницы полностью соответствует 
блоку в файловой системе или странице в системе виртуальной памяти. Для просто- 
ты в общем случае при рассмотрении алгоритмов будет предполагаться, что такое 
соответствие актуально. В конкретных приложениях, в зависимости от системы или 
приложения, блок может состоять из нескольких страниц либо несколько блоков мо- 
гут образовывать одну страницу; подобные нюансы не снижают эффективность ал- 
горитмов, тем самым лишь подчеркивая выгодность работы на абстрактном уровне. 

Мы манипулируем страницами, ссылками на страницы и элементами с ключами. 
Применительно к большой базе данных наиболее важная проблема, которую следу- 
ет рассмотреть заключается в поддержке индексов для данных. То есть, как кратко 
упоминалось в разделе 12.7, предполагается, что элементы, образующие нашу таблицу 
символов, хранятся где-то в статической форме, а наша задача состоит в построении 
структуры данных с ключами и ссылками на элементы, которая позволяет быстро 
ссылаться на данный элемент. Например, телефонная компания может хранить ин- 
формацию о клиентах в огромной статической базе данных при наличии нескольких 
индексов, возможно, использующих различные ключи, для ежемесячных оплат, для 
обработки ежедневных транзакций, периодических обращений к клиентам и т.п. Для 
очень больших наборов данных индексы имеют первостепенное значение: в основ- 
ном, копии основных данных не создаются не только потому, что невозможно вы- 
делить дополнительный объем памяти, но и потому, что желательно избежать про- 
блем, связанных с подержанием целостности данных в условиях присутствия 
нескольких копий. 

Соответственно, в общем случае предполагается, что каждый элемент представля- 
ет собой ссылку на фактические данные, которая может быть адресом страницы или 
каким-либо более сложным интерфейсом для базы данных. Для простоты будем хра- 
нить в своих структурах данных не копии элементов, а копии ключей — часто такой 
подход оказывается наиболее практичным. Кроме того, для простоты описания алго- 
ритмов мы не будем использовать абстрактный интерфейс для ссылок на элементы 
и страницы — вместо этого будем использовать только указатели. Таким образом, мы 
сможем использовать свои реализации непосредственно в среде виртуальной памяти, 
но нам придется преобразовать указатели и обращения к указателям в более слож- 
ные механизмы, чтобы сделать их действительно внешними методами сортировки. 

Мы рассмотрим алгоритмы, которые для широкого диапазона значений двух ос- 
новных параметров (размера блока и относительного времени доступа) реализуют 
поиск (зеагсИ), вставки (іпзегі) и другие операции в полностью динамической таблице 
символов за счет использования всего нескольких зондирований для каждой опера- 
ции. В типичном случае, когда выполняется огромное количество операций, может 
оказаться эффективной тщательная настройка. Например, если типовые затраты на 
поиск удается снизить с трех зондирований до двух, производительность системы 
может быть повышена на 50 процентов! Однако в этой главе подобная настройка не 
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рассматривается; ее эффективность в очень большой степени зависит от систем и 
приложений. 

В первых компьютерах внешние устройства хранения были хитроумными устрой- 
ствами, которые были не только большими и медленно работающими, но и не мог- 
ли хранить большие объемы информации. Соответственно, было важно обойти их 
ограничения, и фольклор начала эры программирования переполнен историями о 
программах доступа ко внешним файлам, которые обеспечивали прекрасную синх- 
ронизацию для считывания данных с вращающегося диска или барабана, или как-либо 
иначе минимизировали физические перемещения, необходимые для доступа к 
данным. В то же время существует полно историй о громких провалах подобных по- 
пыток, когда малейшие просчеты существенно замедляли процесс по сравнению с 
простейшими реализациями. И напротив, современные устройства хранения инфор- 
мации не только очень малы по размерам и работают исключительно быстро, но и 
способны хранить огромные объемы информации, поэтому в общем случае такие 
проблемы решать не приходится. Действительно, в современных программных сре- 
дах мы стремимся избегать зависимости от конкретных реальных устройств — в це- 
лом гораздо важнее, чтобы программы эффективно работали на различных компь- 
ютерах (включая и будущие разработки), чем чтобы они обеспечивали максимальную 
производительность на конкретном устройстве. 

Для баз данных с длительным сроком использования существует множество воп- 
росов реализации, связанных с основными целями поддержания целостности данных 
и обеспечения гибкого и надежного доступа. Здесь эти вопросы не рассматриваются. 
Для таких приложений рассматриваемые методы можно считать фундаментальными 
алгоритмами, которые непременно обеспечат высокую производительность и послу- 
жат отправной точкой при разработке системы. 

16.2 Индексированный последовательный доступ 

Прямой подход к построению индекса заключается в сохранении массива со ссыл- 
ками на ключи и элементы, упорядоченного по ключам, с последующим использова- 
нием бинарного поиска (см. раздел 12.4) для реализации операции зеагсН. При нали- 
чии N элементов для реализации этого метода потребовалось бы 1&УѴ зондирований, 
даже в случае очень большого файла. Наша базовая модель немедленно принуждает 
к рассмотрению двух разновидностей этого простого метода. Во-первых, сам по себе 
индекс очень велик и в общем случае не помещается на одной странице. Поскольку 
доступ к страницам можно получить только через ссылки на страницы, вместо это- 
го можно построить явное полностью сбалансированное бинарное дерево с ключа- 
ми и указателями на страницы во внутренних узлах и с ключами и указателями на 
элементы во внешних. Во-вторых, затраты на доступ к М записям таблицы равны 
затратам на доступ к 2, поэтому можно воспользоваться Л/-арным деревом при та- 
ких же затратах на каждый узел, что и в случае применения бинарного дерева. Та- 
кое усовершенствование уменьшает количество зондирований до значения, прибли- 
зительно пропорционального Іо&і/УѴ. Как было показано в главах 10-15, на практике 
это значение можно считать константным. Например, если М равно 1000, то \о% м Н 
меньше 5 для N меньше 1 триллиона. 
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На рис. 16.1 приведен пример набора ключей, а на рис. 
16.2 — пример такой структуры дерева для этих ключей. 
Чтобы примеры были достаточно понятными, пришлось 
использовать сравнительно небольшие значения М и УѴ, 
тем не менее, они иллюстрируют, что деревья для большого 
значения М будут плоскими. 

Показанное на рис. 16.2 дерево является абстрактным, 
не зависящим от устройства представлением индекса, ко- 
торое аналогично множеству других рассмотренных струк- 
тур данных. Обратите внимание, что вместе с тем оно не 
особо отличается от зависящих от устройств индексов, кото- 
рые можно встретить в программном обеспечении низко- 
уровневого доступа к дискам. Например, в ряде первых 
систем использовалась двухуровневая схема, в которой 
нижний уровень соответствовал элементам на страницах 
конкретного дискового устройства, а второй уровень — 
главному индексу отдельных устройств. В таких системах 
главный индекс хранился в основной памяти, поэтому для 
доступа к элементу через такой индекс требовались две 
операции доступа: одна для получения индекса и вторая 
для получения страницы, содержащей элемент. С увеличе- 
нием емкости дисков возрастали и размеры индексов, при- 
чем для хранения индекса требовалось несколько страниц, 
что со временем привело к использованию иерархической 
схемы наподобие показанной на рис. 16.2. Мы продолжим 
работать с абстрактным представлением, зная, что при не- 
обходимости оно может быть непосредственно реализова- 
но с помощью типового системного аппаратного и про- 
граммного обеспечения низкого уровня. 

Во многих современных системах аналогичная структу- 
ра дерева используется для организации огромных файлов 
в виде последовательностей дисковых страниц. Такие дере- 
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РИСУНОК 16.1 двоич 


ПРЕДСТАВЛЕНИЕ 
ВОСЬМЕРИЧНЫХ КЛЮЧЕЙ 


Ключи (слева) у используемые 
в примерах в этой главе, 
представляют собой 


трехзначные восьмеричные 
числау которые также 
интерпретируются как 
9-разрядные двоичные 
значения (справа). 


вья не содержат ключей, но они могут эффективно поддер- 
живать стандартные операции доступа к файлам, хранящимся по порядку, и, если 


каждый узел содержит счетчик размера его дерева, то нахождения страницы, кото- 
рая содержит к - тый элемент файла. 

Поскольку метод индексации, показанный на рис. 16.2, объединяет последователь- 


ную организацию ключей с индексным доступом, по историческим причинам такой 
метод называется индексным последовательным доступом. Этот метод удобен для при- 
ложений, в которых изменения в базе данных выполняются редко. Иногда сам ин- 
декс называют каталогом. Недостаток использования индексного последовательного 


доступа заключается в том, что изменение каталога представляет собой операцию, 
сопряженную с большими затратами. Например, для добавления единственного ключа 
может потребоваться перестройка буквально всей базы данных с присвоением новых 
позиций многим ключам и новых значений индексам. Для преодоления упомянуто- 
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го недостатка и обеспечения возможности увеличения 
базы данных в будущем в ранних системах резервирова- 
лись лишние страницы на дисках и лишнее пространство 
на страницах; но, в конечном счете, подобная техноло- 
гия оказывалась не очень эффективной в динамических 
ситуациях (см. упражнение 16.3). Методы, которые будут 
рассматриваться в разделах 16.3 и 16.4, обеспечивают си- 
стематичные и эффективные альтернативы таким специ- 
ализированным схемам. 

Лемма 16.1 Для выполнения поиска в индексном последо- 
вательном файле требуется выполнение только постоян- 
ного количества зондирований, однако вставка может 
быть сопряжена с перестройкой всего индекса. 

В данном случае (и в других разделах книги) термин 
постоянное используется несколько вольно для обо- 
значения значения, которое пропорционально 1о&*/ІѴ 
для большого значения М. Как уже отмечалось, это 
оправдано для размеров файлов, встречающихся на 
практике. На рис. 16.3 показаны дополнительные 
примеры. Даже при наличии 128-разрядного ключа 
поиска, пригодного для указания неимоверно боль- 
шого количества различных элементов, равного 2 128 , 
элемент с данным ключом можно было бы найти при 
помощи всего 13 зондирований, при 1000-позицион- 
ном ветвлении. 

Мы не будем рассматривать реализации, которые 
обеспечивают поиск и построение индексов подобного 
типа, поскольку они представляют собой специальные 
случаи более общих механизмов, рассмотренных в раз- 
деле 16.3 (см упражнение 16.17 и программу 16.2). 
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РИСУНОК 16.2 СТРУКТУРА 
ИНДЕКСНОГО 

ПОСЛЕДОВАТЕЛЬНОГО ФАЙЛА 


В последовательном индексе 
ключи хранятся по порядку в 
полных страницах (справа), 
причем индекс указывает на 
самый малый ключ на каждой 
странице (слева). Для 
добавления ключа потребуется 
перестроить всю структуру 
данных. 


Упражнения 

> 16.1 Составьте таблицу значений 1о§«ІѴдля М = 10, 100 и 1000 и N = ІО 3 , 10 4 , 10 5 
и ІО 6 . 

о 16.2 Нарисуйте структуру индексного последовательного файла для ключей 516, 
177, 143, 632, 572, 161, 774, 470, 411, 706, 461, 612, 761, 474, 774, 635, 343, 461, 351, 
430, 664, 127, 345, 171 и 357 при М = 5 и N = 6. 

о 16.3 Предположим, что мы строим структуру индексированного последовательно- 
го файла для N элементов, помещаемых на страницах емкостью М , но оставляем 
на каждой странице к свободных ячеек для возможности расширения. Приведите 
формулу для определения количества зондирований, необходимых для выполне- 
ния поиска, в виде функции от N1 М и к. Используйте эту формулу для определе- 
ния количества зондирований, необходимого для выполнения поиска при 
к = М/ 10, М = 10, 100 и 1000 и N = ІО 3 , ІО 4 , ІО 5 и ІО 6 . 
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о 16.4 Предположите, что затраты на зондиро- 
вание составляют около а условных единиц 
времени, а средние затраты на поиск элемен- 
та на странице составляют около $М услов- 
ных единиц времени. Найдите значение М , 
при котором затраты на поиск в структуре 
индексного последовательного файла мини- 
мальны, при а/р = 10, 100 и 1000 и ІѴ= 10 3 , 
ІО 4 , ІО 5 и ІО 6 . 


ІО 5 

10 е 

ІО 9 


слов в словаре 

слов в романе "Моби Дик 


§ѵ 


ІО 12 

ІО ’ 5 


10 


20 


16.3 В -деревья 


10 


25 


10 


79 


номеров карточек социального 
страхования 

телефонных номеров в мире 

людей, когда-либо живших 
на Земле 

песчинок на побережье 
Кони-Айленда 

разрядов во всех 
изготовленных модулях памяти 

электронов во Вселенной 


Для построения структур поиска, которые 
могут быть эффективны в динамических ситуа- 
циях, мы будем строить многопозиционные де- 
ревья, но при этом откажемся от ограничения, в 
соответствии с которым каждый узел должен 
иметь в точности М записей. Вместо этого выд- 
винем условие, что каждый узел должен иметь 
максимум М записей, чтобы они помещались на 
странице, но при этом узлы могут иметь и мень- 
ше записей. Чтобы гарантировать, что узлы 
имеют достаточное количество записей для обес- 
печения ветвления, необходимого ради предотв- 
ращения увеличения длины путей, мы потребу- 
ем, чтобы все узлы имели, по меньшей мере 
(скажем) по М/2 записей, за исключением, быть 


РИСУНОК 16.3 ПРИМЕРЫ РАЗМЕРОВ 
НАБОРОВ ДАННЫХ 

Эти впечатляющие граничные 
значения демонстрируют, что на 
практике вряд ли встретится таблица 
символов, содержащая более №*° 
элементов. Даже в такой неимоверно 
большой базе данных элемент с 
заданным ключом можно было бы 
найти посредством менее 10 
зондирований при 1 000-позиционном 
ветвлении. Даже если бы как-то 
удалось сохранить информацию о 
каждом электроне во Вселенной, 1000- 
позиционное ветвление позволило бы 
получить доступ к любому 
конкретному элементу через менее чем 
21 зондирований. 


может, корня, который должен иметь не менее 
одной записи (двух связей). Причина этого ис- 
ключения для корня станет понятна при подробном рассмотрении алгоритма. Такие 
деревья были названы В-деревьями благодаря Байеру (Вауег) и МакКрейту 
(МсСгеі§Ьі), которые в 1970 г. первыми воспользовались многопутевыми сбаланси- 
рованными деревьями для внешнего поиска. Термин В-дерево часто используется для 
описания именно той структуры данных, которая строится алгоритмом, предложен- 
ным Байером и МакКрейтом; мы же будем использовать его в качестве общего тер- 
мина для обозначения семейства связанных алгоритмов. 

Мы уже встречались с реализацией В-дерева: из определений 13.1 и 13.2 видно, 
что В-деревья четвертого порядка, в которых каждый узел имеет не более 4 и не ме- 
нее 2 связей, являются ни чем иным, как сбалансированными 2-3-4-деревьями, опи- 
санными в главе 13. Действительно, лежащую в их основе абстракцию можно непос- 
редственно обобщить и реализовать В-деревья, обобщив реализации нисходящего 
2-3-4-дерева, описанные в разделе 13.4. Однако, различия между внешним и внутрен- 
ним поиском, упомянутые в разделе 16.1, приводят к ряду различий в реализациях. В 
этом разделе мы рассмотрим реализацию, которая 

• обобщает 2-3-4-деревья до деревьев, имеющих от М/2 до М узлов 

• представляет многопутевые узлы при помощи массива элементов и связей 



* 
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• реализует индекс, а не структуру поиска, содержащую элементы 

• выполняет восходящее разделение 

• отделяет индексы от элементов 

Два последних свойства в этом перечне несущественны, однако удобны во мно- 
гих ситуациях и обычно встречаются в реализациях В-деревьев. 

На рис. 16.4 показано абстрактное 4-5-6-7-8-дерево, являющееся обобщением 2- 
3-4-дерева из раздела 13.3. Обобщение очевидно: 4-узлы имеют три ключа и четыре 
связи, 5-узлы — четыре ключа и пять связей и т.д., при использовании одной связи для 
каждого возможного интервала между ключами. Поиск начинается с корня и выпол- 
няется переход от одного узла к другому с определением соответствующего интер- 
вала для искомого ключа в текущем узле. Далее осуществляется выход по соответству- 
ющей связи, чтобы добраться до следующего узла. Поиск завершается попаданием, 
если искомый ключ отыскивается в любом рассмотренном узле, и промахом, если 
нижняя часть дерева достигается без попадания. Подобно тому как это было возмож- 
но в 2-3-4-деревьях, новый ключ можно вставить в нижнюю часть дерева после вы- 
полнения поиска, если по дороге вниз по дереву выполняется разделение полных 
узлов: если корень — 8-узел, он заменяется 2-узлом, связанным с двумя 4-узлами. За- 
тем, каждый раз когда встречается к- узел, он заменяется (к + 1)-узлом, соединенным 
с двумя 4-узлами. Этот подход гарантирует наличие места для вставки нового узла в 
случае достижения нижней части дерева. 

Или же, как описывалось в разделе 13.3 применительно к 2-3-4-деревьям, разде- 
ление можно выполнять снизу вверх: вставка реализуется через поиск и помещение 
нового ключа в нижний узел, если только последний не является 8-узлом — в этом 
случае он делится на два 4-узла со вставкой среднего ключа и двух связей в его ро- 
дительский узел. Восходящее разделение выполняется до тех пор, пока не встретит- 
ся узел-потомок, отличный от 8-узла. 

Путем замены в предыдущих двух абзацах 4 на М/2, а 8 — на М, приведенные опи- 
сания преобразуются в описания поиска и вставки для Л//2-...-Л/-деревьев при любом 
положительном целочисленном значении М, кратном 2 (см. упражнение 16.9). 



РИСУНОК 16.4 4-5-6-7-8-ДЕРЕВО 

На рисунке показано обобщение 2-3-4-деревьев , построенных из узлов с от 4 до 8 связей (и от 3 до 7 
связей , соответственно). Как и в случае 2-3-4-деревьев , мы поддерживаем высоту деревьев 
постоянной за счет разделения 8-узлов с использованием либо нисходящего , либо восходящего 
алгоритма. Например , для вставки в показанное дерево еще одного У следовало бы сначала разделить 
8-узел на два 4-узла , а затем вставить М в корень , преобразуя его в 6-узел. Если дело доходит до 
разделения корня, то не остается ничего другого, кроме как создание нового корня, который будет 
2-узлом. В результате корень освобождается от ограничения, что узлы должны иметь по меньшей 
мере четыре связи. 
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Определение 16.2 В-дерево порядка М — это дерево , которое либо пусто, либо состо- 
ит из к-узлов с к-] ключами и к связями с деревьями, представляющими каждый из к 
ограниченных ключами интервалов, и обладающее следующими структурными свойства- 
ми: к должно находиться в интервале между 2 и М для корня и между М/2 и М для 
любого другого узла; все связи с пустыми деревьями должны находиться на равном рас- 
стоянии от корня . 

Алгоритмы В-деревьев строятся на основе этого базового набора абстракций. Как 
и в главе 13, существует значительная свобода в выборе конкретных представлений 
таких деревьев. Например, можно использовать расширенное ЯВ-представление (см. 
упражнение 13.69). Для внешнего поиска мы используем еще более простое представ- 
ление в виде упорядоченного массива, при условии, что значение М достаточно ве- 
лико, чтобы М - узлы заполняли страницу. Коэффициент ветвления равен, по мень- 
шей мере, М/2 , поэтому, как следует из леммы 16.1, количество зондирований, 
необходимое для выполнения любого поиска или вставки, по сути, постоянно. 

Вместо того чтобы реализовать только что описанный метод, рассмотрим вариант, 
обобщающий стандартный индексный указатель, рассмотренный в главе 16.1. Мы 
храним ключи со ссылками на элементы на внешних страницах в нижней части дере- 
ва, а копии ключей со ссылками на страницы — на внутренних страницах. Мы встав- 
ляем новые элементы в нижнюю часть, а затем используем базовую абстракцию 
М/2-...-М дерева. Когда страница содержит М записей, мы разделяем ее на две стра- 
ницы с М/2 записями в каждой и вставляем ссылку на новую страницу в родительс- 
кую страницу. При разделении корня мы создаем новый корень с двумя дочерними 
узлами, тем самым увеличивая высоту дерева на 1. 

На рис. 16.5-16.7 показано В-древо, которое было построено в результате встав- 
ки ключей, показанных на рис. 16.1 (в приведенном порядке) в первоначально пус- 
тое дерево при М= 5. 
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В этих примерах показаны шесть вставок в первоначально пустое В-дерево, построенное из страниц, 
которые могут содержать пять ключей и связей, при использовании ключей, являющихся 3-значными 
восьмеричными числами ( 9-разрядными двоичными числами). Ключи в страницах хранятся по 
порядку. Шесть вставок приводят к разделению на два внешних узла с тремя ключами в каждом и 
внутренний узел, служащий в качестве индекса: его первый указатель указывает на страницу, 
содержащую все ключи, которые больше или равны ключу 000, но меньше ключа 601, а второй 
указатель — на страницу , содержащую все ключи, которые больше или равны ключу 601. 
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Выполнение вставок требует всего лишь добавления элемента в страницу, но на 
основании структуры результирующего дерева можно определить важные события, 
происходящие во время его построения. Дерево содержит семь внешних страниц, 
поэтому должно было быть выполнено шесть разделений внешних узлов, и поскольку 
его высота равна 3, корень дерева должен был разделяться дважды. Эти события опи- 
саны в сопровождающих рисунки комментариях. 

В программе 16.1 приведены определения типа для узлов рассматриваемой реали- 
зации В-дерева. Мы не указываем подробно структуру узлов, что следовало бы сде- 
лать в реальной реализации, поскольку для этого потребовалась бы ссылка на кон- 
кретные страницы диска. Для простоты мы используем один тип узлов, когда каждый 
узел состоит из массива записей, каждая из которых содержит элемент, ключ и связь. 
Каждый узел содержит также счетчик, указывающий количество активных записей. 
Мы не обращаемся к элементам во внутренних узлах, мы не обращаемся к связям во 
внешних узлах, и мы не обращаемся к ключам внутри элементов дерева. При ис- 
пользовании конкретной структуры данных в реальном приложении можно сэконо- 
мить память за счет применения таких конструкций, как ипіоп (объединение) или 
производные классы. Можно было бы также сэкономить память ценой увеличения 
времени выполнения, используя везде в дереве связи с элементами вместо ключей. 
Такие конструктивные решения сопряжены с очевидными изменениями кода и за- 
висят от конкретного характера ключей, элементов и связей в приложении. 
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После вставки четырех ключей 742 , 373, 524 и 766 в крайнее справа В-дерево, показанное на рис. 16.5, 
обе внешние страницы оказываются заполненными (рисунок слева). Затем, при вставке ключа 275 
первая страница разделяется с пересылкой связи с новой страницей (вместе с наименьшим ее ключом 
373) вверх в индексе (рисунок в центре). Далее, при вставке ключа 737 разделяется нижняя страница, 
также с пересылкой связи с новой страницей вверх в индексе (рисунок справа). 
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Программа 16.1 Определения типов узлов В-дерева 


Каждый узел в В-дереве содержит массив и счетчик количества активных записей 
в массиве. Каждая запись массива представляет собой ключ, элемент и связь с уз- 
лом. Во внутренних узлах используются только ключи и связи; во внешних узлах ис- 
пользуются только ключи и элементы. Новые узлы инициализируются в виде пустых 
узлов путем установки значения поля счетчика равным 0. 


ѣетріаѣе <с1азз Нет, сіазз Кеу> 
зЪгисЪ епѣгу 

{ Кеу кеу; Пет Нет; зѣгисЪ по сіе *пехѣ; }; 
зЪгисі: посіе 

{ іпѣ т; епЪгуСНет, Кеу> Ь[М] ; 
посіе () { т = 0 ; } 

} ; 

ѣурѳсіеГ посіе *1іпк; 
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Продолжая приведенный пример, мы вставляем 13 ключей 574, 434, 641, 207, 001, 227, 061, 736, 526, 
562, 017, 107 и 147 в крайнее справа В-дерево из рис. 16.6. Разделение узла происходит при вставке 
ключей 277 (рисунок слева), 526 (рисунок в центре) и 107 (рисунок справа). Разделение узла , вызванное 
вставкой ключа 526, приводит также к разделению индексной страницы и к увеличению высоты 
дерева на единицу. 
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После ознакомления с этими определениями и с рассмотренными примерами де- 
ревьев, код выполнения операции зеагсИ , приведенный в программе 16.2, становит- 
ся вполне понятным. Для внешних узлов мы выполняем просмотр массива узлов с 
целью нахождения ключа, который соответствует искомому ключу, возвращая связан- 
ный с ним элемент в случае успеха и нулевой элемент в случае неудачи. Для внутрен- 
них узлов мы выполняем просмотр массива узлов для нахождения связи с уникаль- 
ным поддеревом, которое могло бы содержать искомый ключ. 


Программа 16.2 Поиск в В-дереве 


Как обычно, эта реализация операции зеагсіі для В-деревьев основывается на ре- 
курсивной функции. Для внутренних узлов (имеющих положительную высоту) мы 
выполняем просмотр с целью отыскания ключа, который больше искомого, и осуще- 
ствляем рекурсивный вызов поддерева, указанного предыдущей связью. Для вне- 
шних узлов (высота которых равно 0) мы ввіполняем просмотр, чтобы выяснить, со- 
держат ли они элемент, ключ которого равен искомому. 



І'Ьет зеагсЪК (Ііпк Ь, Кеу ѵ, іп+. ЪЪ) 
{ іп-Ь ^ ; 

і* (Ы == 0) 

^ог (з = 0; з < Ь->т; 3++) 

{ Щ (ѵ == Ь->Ь[з].кеу) 
геЪигп Ь->Ь [ 3 ] . Нет; } 


^ог (з = 0 ; з < Ь->т; 3 ++) 

Н ((з +1 == Ь->т) || (ѵ < Ь->Ь[з+ 1 ] .кеу) ) 

ге-Ьигп зеагсЬК (Ь->Ъ [3 ] . пехЪ, ѵ, Ы:-1) ; 
геѣигп пиПІіет; 

} 

риЫіс : 

Нет зеагсЬ(Кеу ѵ) 

{ геЪигп зеагсЬК (Ьеасі, ѵ, НТ) ; } 


Программа 16,3 содержит реализацию операции іпзегі для В-деревьев; кроме того, 
в ней применяется рекурсивный подход, используемый во многих других реализациях 
деревьев поиска, описанных в главах 13 и 15. Эта реализация является восходящей, 
поскольку проверка на предмет разделения узла выполняется после рекурсивного 
вызова, и, следовательно, первый разделяемый узел является внешним. Разделение 
требует передачи новой связи вверх родительскому узлу разделяемого узла, который, 
в свою очередь, может нуждаться в разделении и передаче связи его родительскому 
узлу и т.д., возможно, вплоть до корня дерева (при разделении корня создается но- 
вый корень с двумя дочерними поддеревьями). И наоборот, в реализации 2-3-4-де- 
рева из программы 13.6 проверка на предмет разделения выполняется перед рекур- 
сивным вызовом, и поэтому разделение выполняется в ходе перемещения вниз по 
дереву. Для В-деревьев можно было бы воспользоваться также нисходящим подходом 
(см. упражнение 16.10). Это различие между нисходящим и восходящим подходами во 
многих приложениях, использующих В-деревья, несущественно, поскольку эти дере- 
вья являются очень плоскими. 
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Программа 16.3 Вставка в В-дерево 

Новые элементы вставляются за счет перемещения больших элементов вправо на 
одну позицию, как в сортировке вставками. Если вставка приводит к переполнению 
узла, мы вызываем функцию зрііі для разделения узла на две половины, а затем 
вставляем связь с новым узлом во внутренний родительский узел, который также 
может разделяться; таким образом, влияние вставки может распространяться вплоть 
до корня. 

ргіѵаѣе : 

Ііпк іпзегѣК (Ііпк Ь, Іѣет х , іпѣ Ьѣ) 

{ іп-Ь і, Кеу ѵ = х.кеуО ; еп'ЬгуСІ'Ьет, Кеу> Ь; 

•Ь.кеу = ѵ; ѣ.і'Ьет = х; 
і* (Ы. == 0) 

±ог (} = 0; ^ < Ь->т; }++) 

{ (ѵ < Ь->Ь[Л .кеу) Ьгѳак; } 

еізе 

^ог (} = 0; 3 < Ь->т; з++) 

( (з+1 == Ь->т) || (ѵ < Ь->Ь [ з+1] .кеу) ) 

{ Ііпк и; 

и = іпзегеК(Ь->Ъ [ 3++] .пехѣ, х, Ы-1) ; 

іі: (и == 0) геЪигп 0; 

е.кеу = и->Ъ[ 0 ] .кеу; Ъ.пехЪ = и; 

Ьгеак ; 

} 

±оі (і = Ь->т; і > 3 ; і — ) Ь->Ъ[і] = Ь->Ъ[і- 1 ] ; 

Ь->Ъ[Я = Ь; 

±± (++Ь->т < М) геѣигп 0 ; еізе гѳѣигп зрІі'Ь(Ь) ; 

} 

риЫіс : 

ЗТ (іпѣ тахИ) 

{ N = 0 ; НТ = 0 ; Ьѳад = пеѵ поде ; } 

ѵоід іпзегі: (ІЪет іЪет) 

{ Ііпк и = іпзегек(Ьеад, іѣѳт, НТ) ; 
і^ (и == 0) геѣигп; 

Ііпк Ь = пеѵ поде (); ѣ->т = 2; 
е->Ъ[ 0 ] .кеу = Ьеад->Ь [ 0 ] . кеу ; 

>Ь [13 .кеу = и->Ъ[ 0 ] . кеу; 
е->Ъ [ 0 ] .пехі: = Ьвад; Ѣ->Ь[ 1 ] .пехѣ = и; 

Ьеад = Ь; НТ++; 

} 


Код разделения узла показан в программе 16.4. В нем для переменной М исполь- 
зуется четное значение, и каждый узел дерева может содержать только М— 1 элемент. 
Этот подход позволяет вставлять М-тый элемент в узел перед разделением этого узла 
и значительно упрощает код, не оказывая особого влияния на затраты (см. упражне- 
ния 16.20 и 16.21). Для простоты в аналитических выкладках, приведенных далее в 
разделе, мы ограничиваем сверху количество элементов каждого узла (Л/); действи- 
тельные же различия весьма несущественны. В нисходящей реализации не пришлось 
бы прибегать к этой технологии, поскольку в таком случае наличие свободного ме- 
ста для вставки нового узла обеспечивается автоматически. 
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Программа 16.4 Разделение узла В-дерева 

Чтобы разделить узел в В-дереве, мы создаем новый узел, перемещаем большую 
половину ключей в новый узел, а затем изменяем значения счетчиков и устанавли- 
ваем служебные ключи в середине обоих узлов. В этой программе предполагает- 
ся, что значение М является четным, а в каждом узле имеется лишняя позиция для 
элемента, который вызывает разделение. Другими словами, максимальное количе- 
ство ключей в узле равно М-1, и когда количество ключей в узле достигает значе- 
ния М, узел разделяется на два узла с М/2 ключей в каждом. 

Ііпк зр1іі(1іпк Ь) 

{ Ііпк 1: = пѳѵ посіе(); 

^ог (іпЪ ^ = 0 ; ^ < М/2; }++) 

*->ъ[з] = ь->ъ [м/ 2 + 3 ] ; 

Ъ->т = М/2; і:->т = М/2; 
геѣигп Ь; 

} 


Лемма 16.2 Для выполнения поиска или вставки в В-дереве порядка М, содержащем N 
элементов, требуется от Іо%мМ до Іо^м/ 2 ^ зондирований — число, которое на практике 
можно считать постоянным . 

Эта лемма является следствием наблюдения, что все узлы во внутренней части В- 
дерева (узлы, которые не являются ни корнем, ни внешними узлами) имеют от 
М/2 до М связей, поскольку они образованы в результате разделения полного 
узла, содержащего М ключей, и увеличиваться может только их количество (при 
разделении нижнего узла). В лучшем случае эти узлы образуют полное дерево по- 
рядка М , что немедленно дает указанный верхний предел (см. лемму 16.1). В худ- 
шем случае мы получаем полное дерево порядка М/2. 

Когда М равно 1000, при N менее 125 миллионов, высота дерева меньше трех. В 
типовых ситуациях затраты можно уменьшить до двух зондирований, храня корне- 
вой узел во внутренней памяти. Для реализаций поиска на диске этот шаг можно 
предпринимать явно перед применением любого приложения, связанного с очень 
большим количеством поисков; в виртуальной памяти с кэшированием корневым 
узлом будет узел, который, скорее всего, должен храниться в быстрой памяти, по- 
скольку обращение к нему выполняется наиболее часто. 

Вряд ли можно рассчитывать на реализацию поиска, которая сможет гарантиро- 
вать выполнение менее двух зондирований при выполнении операций зеагсН и іпзегі 
в очень больших файлах, и В-деревья находят широкое применение, поскольку они 
позволяют приблизиться к этому идеалу. Подобная производительность и гибкость 
достигаются ценой наличия пустых ячеек внутри узлов, что может оказаться обреме- 
нительным для очень больших файлов. 

Лемма 16.3 В-дерево порядка М, сконструированное из N случайных элементов, пред- 
положительно должно иметь около 1.44 А /М страниц. 

Яо (Уао) доказал это в 1979 г., прибегнув к математическому анализу, который 
выходит за рамки этой книги {см. раздел ссылок). Этот анализ основывается на ана- 
лизе простой вероятностной модели, описывающей рост дерева. После того, как 
вставлены первые М/2 узлов, в любой заданный момент времени имеется /,• вне- 
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шних страниц с / элементами, при М/2 < і < М и і М / 2 + ••• + *м - N. Поскольку ве^ 
роятность попадания случайного ключа в любой интервал между узлами одинако- 
ва, вероятность попадания в узел с і элементами равна и /К В частности, для і < М 
эта величина равна вероятности того, что количество внешних страниц с / элемен- 
тами уменьшается на 1, а количество внешних страниц с (/ + 1) элементами уве- 
личивается на 1. Для і = 2 М эта величина равна вероятности того, что количество 
внешних страниц с 2 М элементами уменьшается на 1, а количество внешних стра- 
ниц с М элементами увеличивается на 2. Такой вероятностный процесс называется 
Марковской цепью. Результат, полученный Яо, основывается на анализе асимпто- 
тических свойств этой цепи. 

Лемму 16.3 можно также доказать, написав программу для имитации вероятност- 
ного процесса (см. упражнение 16.11 и рис. 16.8 и 16.9). Конечно, можно было бы 
также просто построить случайные В -деревья и измерить их структурные характери- 
стики. Вероятностную имитацию выполнить проще, чем произвести математический 
анализ или создать полную реализацию, кроме того, она служит важным инструмен- 
том изучения и сравнения вариантов алгоритмов (см., например, упражнение 16.16). 

Реализации других операций таблиц символов аналогичны соответствующим реа- 
лизациям для других ранее рассмотренных представлений с использованием деревьев, 
поэтому они остаются в качестве упражнений (см. упражнения 16.22—16.25). В част- 
ности, реализации операций зеіесі и зогі очевидны, но, как обычно, правильная реа- 
лизация операции гетоѵе может оказаться сложной задачей. Подобно операции ітегі , 
большинство операций гетоѵе заключаются в простом удалении элемента из внешней 
страницы и уменьшении значения ее счетчика, но что делать, если необходимо уда- 
лить элемент из узла, который имеет только М/2 элементов? Естественный подход — 
найти для заполнения свободного места элементы в родственных узлах (возможно, 
с уменьшением количества узлов на единицу), но реализация усложняется, поскольку 
приходится отслеживать ключи, связанные с любыми перемещаемыми по узлам эле- 
ментами. Во встречающихся на практике ситуациях обычно можно использовать зна- 
чительно более простой подход, оставляя внешние узлы незаполненными, что не осо- 
бенно снижает производительность (см. упражнение 16.25). 

Многие вариации базовой абстракции В-дерева приходят на ум немедленно. Один 
класс вариаций позволяет экономить время за счет упаковки во внутренние узлы 
максимально возможного количества ссылок страниц, в результате чего коэффици- 
ент ветвления повышается, а дерево становится более плоским. Как уже отмечалось, 
в современных системах преимущества, получаемые в результате таких изменений, 
ограничены, поскольку стандартные значения параметров позволяют реализовать 
операции зеагсН и ітегі при помощи всего двух зондирований — эффективность, ко- 
торую вряд ли удастся повысить. Другой класс вариантов повышает эффективность 
использования дискового пространства, перед разделением объединяя узлы с их род- 
ственными узлами. Упражнения 16.13—16.16 посвящены такому методу, который при 
работе со случайными ключами позволяет уменьшить дополнительно используемый 
объем дискового пространства с 44 до 23 процентов. Как обычно, выбор того или 
иного варианта зависит от свойств приложения. Помня о широком множестве различ- 
ных ситуаций, в которых применимы В-деревья, мы не будем подробно рассматри- 
вать эти вопросы. 
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РИСУНОК 16.8 РОСТ БОЛЬШОГО В-ДЕРЕВА 

В этой имитации мы вставляем элементы со случайными ключами в первоначально пустое В-дерево, 
образованное страницами , которые могут содержать девять ключей и связей. Каждая линия 
отображает внешние узлы в виде сегментов, длина которых пропорциональна количеству элементов в 
данном узле. Большинство вставок выполняется во внешних узлах, которые не заполнены, что 
приводит к увеличению размера данного узла на 1. Когда вставка выполняется в заполненном 
внешнем узле, узел разделяется на два узла половинного размера. 




РИСУНОК 16.9 РОСТ БОЛЬШОГО В-ДЕРЕВА С ОТОБРАЖЕНИЕМ ЗАНЯТОСТИ СТРАНИЦ 

В этой версии рис. 16.8 показано, как страницы заполняются во время процесса роста В-дерева. Как 
и в предыдущем случае, большинство вставок приходится на страницы, которые не заполнены, лишь 
увеличивая их занятость на 1. Когда вставка приходится на полную страницу, страница разделяется 
на две полупустые страницы. 
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Мы не сможем также рассмотреть подробности реализаций, поскольку это потре- 
бовало бы учета слишком многих зависящих от устройств и систем факторов. Как 
обычно, детальная разработка таких приложений — рискованное дело, и в современ- 
ных системах желательно избегать наличия столь прихотливого и непереносимого 
кода, особенно, когда базовый алгоритм работает вполне успешно. 

Упражнения 

> 16.5 Приведите содержимое 3-4-5-6-дерева, образованного в результате вставки 
ключей Е А8У011Е8Т1О1Ч\У1ТНРЬЕ]ЧТУОРКЕУ8 в указанном 
порядке в первоначально пустое дерево. 

о 16.6 Постройте рисунки, соответствующие рис. 16.5-16.7, иллюстрирующие про- 
цесс вставки ключей 516, 177, 143, 632, 572, 161, 774, 470, 411, 706, 461, 612, 761, 
474, 774, 635, 343, 461, 351, 430, 664, 127, 345, 171 и 357 в указанном порядке в пер- 
воначально пустое дерево при М = 5. 

о 16.7 Укажите высоту В-деревьев, образованных в результате вставки в указанном 
порядке ключей из упражнения 16.6 в первоначально пустое дерево для каждого 
значения М > 2. 

16.8 Нарисуйте В-дерево, образованное в результате вставки 16 одинаковых клю- 
чей в первоначально пустое дерево при М = 4. 

• 16.9 Нарисуйте 1-2-дерево, образованное в результате вставки ключей Е А 8 У О 
ІІЕ8ТІС^в первоначально пустое дерево. Объясните, почему 1-2-деревья не 
представляют практического интереса как сбалансированные деревья. 

• 16.10 Измените реализацию вставки в В-дерево, приведенную в программе 16.3, 
чтобы в ней выполнялось разделение при перемещении вниз по дереву, подобно 
реализации вставки в 2-3-4-дереве (программа 13.6). 

• 16.11 Напишите программу для вычисления среднего количества внешних страниц 
В-дерева порядка М, построенного путем N случайных вставок в первоначально 
пустое дерево при использовании вероятностного процесса, описанного после лем- 
мы 16.1. Выполните программу для М- 10, 100 и 1000 и И- ІО 3 , 10 4 , ІО 5 и ІО 6 . 

о 16.12 Предположите, что в трехуровневом дереве а связей могут храниться во 
внутренней памяти, от Ь до 2 Ь связей — в страницах, представляющих внутренние 
узлы, и от с до 2с связей — в страницах, представляющих внешние узлы. Опреде- 
лите в виде функции от а, Ь и с максимальное количество элементов, которое мо- 
жет храниться в таком дереве. 

о 16.13 Рассмотрите эвристический вариант родственного разделения В-деревьев (или 
В*-дерево ): когда требуется разделить узел, поскольку он содержит М записей, мы 
объединяем узел с его родственным узлом. Если родственный узел содержит к за- 
писей, при к < М- 1, мы перераспределяем элементы, помещая и в родственный, 
и в полный узел приблизительно по ( М + к)/ 2 записей. В противном случае мы со- 
здаем новый узел и помещаем в каждый узел дерева приблизительно по 2М/3 за- 
писей. Кроме того, мы позволяем корню разрастаться, чтобы в нем могло содер- 
жаться около 4А//3, разделяя его и создавая новый корневой узел с двумя 
записями, когда его размер достигает этого предельного значения. Укажите вер- 
хние пределы количества зондирований, используемых для выполнения поиска 
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или вставки в В*-дереве порядка М , содержащем N элементов. Сравните эти пре- 
дельные значения с соответствующими предельными значениями для В-деревьев 
(см. лемму 16.2) при М = 10, 100 и 1000 и ІѴ = ІО 3 , ІО 4 , 10 5 и ІО 6 . 

•• 16.14 Разработайте реализацию операции іпзегі в В*-дереве (основанную на эври- 
стическом методе родственного разделения). 

• 16.15 Создайте рисунок, аналогичный рис. 16.8 для иллюстрации эвристического 
метода родственного разделения. 

• 16.16 Выполните вероятностную имитацию (см. упражнение 16.11) с целью опре- 
деления среднего количества страниц, задействованных при использовании эври- 
стического метода родственного разделения при помощи построения В*-дерева 
порядка М в результате вставки случайных узлов в первоначально пустое дерево, 
при М = 10, 100 и 1000 и УѴ= ІО 3 , ІО 4 , 10 5 и ІО 6 . 

• 16.17 Создайте программу для восходящего построения индекса В-дерева, начи- 
ная с массива указателей страниц, содержащих от М до 2 М упорядоченных эле- 
ментов. 

• 16.18 Можно ли сконструировать индекс заполненных страниц за счет использо- 
вания алгоритма вставки в В-дерево, рассмотренного в тексте раздела (програм- 
ма 16.3)? Обоснуйте ответ. 

16.19 Предположите, что много различных компьютеров имеют доступ к одному 
и тому же индексу, что позволяет нескольким программам практически одновре- 
менно предпринимать попытки вставки нового узла в одно и то же В-дерево. По- 
ясните, почему в такой ситуации может быть предпочтительнее использовать нис- 
ходящие В-деревья, а не восходящие. Предположите, что каждая программа может 
(и делает это) задержать изменение другими программами любого узла, который 
она считывает и, возможно, изменяет впоследствии. 

• 16.20 Измените реализацию В-дерева в программах 16.1—16.3, чтобы в одном узле 
дерева могло содержаться М элементов. 

о 16.21 Постройте таблицу значений разностей І 03999 ІѴИ 1о§ 10 ооА^для N = ІО 3 , ІО 4 , 10 5 
и ІО 6 . 

> 16.22 Реализуйте операцию зон для таблицы символов, основанной на использо- 
вании В-дерева. 

о 16.23 Реализуйте операцию зека для таблицы символов, основанной на исполь- 
зовании В-дерева. 

•• 16.24 Реализуйте операцию гетоѵе для таблицы символов, основанной на исполь- 
зовании В-дерева. 

о 16.25 Реализуйте операцию гетоѵе для таблицы символов, основанной на приме- 
нении В-дерева, при использовании простого метода, когда указанный элемент 
удаляется из внешней страницы (возможно, допустив, чтобы количество элемен- 
тов на странице становилось меньше М/2), но чтобы изменение не распространя- 
лось вверх по дереву, за исключением, возможно, настройки значений ключей, 
если удаленный элемент оказался наименьшим на данной странице. 

• 16.26 Измените программы 16.2 и 16.3, чтобы внутри узлов использовался бинар- 
ный поиск (программа 12.6). Определите значение М, при котором время, затра- 
чиваемое программой на построение таблицы символов за счет вставки N элемен- 
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тов со случайными ключами в первоначально пустую таблицу, минимально, при 

N ~ ІО 3 , ІО 4 , ІО 5 и ІО 6 , и сравните полученные значения времени с соответствую- 
щими значениями для ЯВ-деревьев (программа 13.6). 

16.4 Расширяемое хеширование 

Альтернатива В-деревьям, расширяющая применение алгоритмов поразрядного 
поиска на внешний поиск, была разработана Фагином (Ра§іп), Нивергельтом 
(Міеѵег^еіі), Пиппенгером (Рірреп^ег) и Стронгом (8ігоп§) в 1978 г. Их метод, на- 
званный расширяемым хешированием , приводит к реализации операции зеагсН , для ко- 
торой в типичных приложениях требуется всего одно-два зондирования. Для соответ- 
ствующей реализации операции іпзегі также (почти всегда) требуется всего одно-два 
зондирования. 

Расширяемое хеширование объединяет свойства методов хеширования, использо- 
вания многопозиционных Ігіе-деревьев и последовательного доступа. Подобно мето- 
дам хеширования, описанным в главе 14, расширяемое хеширование представляет 
собой рандомизированный алгоритм — прежде всего необходимо определить хеш- 
функцию, которая преобразует ключи в целые числа (см. раздел 14.1). Для простоты 
в этом разделе мы будем просто считать, что ключи являются случайными строками 
разрядов фиксированной длины. Подобно алгоритмам с использованием многопози- 
ционных ігіе-деревьев, описанным в главе 15, расширяемое хеширование начинает 
поиск с использования ведущих разрядов ключей в качестве индексных указателей в 
таблицу, размер которой является степенью 2. Подобно алгоритмам с применением 
В-деревьев, при использовании расширяемого хеширования элементы хранятся на 
страницах, которые разделяются на две части при заполнении. Подобно методам ин- 
дексного последовательного доступа расширяемое хеширование поддерживает ката- 
лог, указывающий, где можно найти страницу, содержащую соответствующие иско- 
мому ключу элементы. Поскольку оно объединяет эти знакомые свойства в одном 
алгоритме, расширяемое хеширование как нельзя более подходит для завершения 
знакомства с алгоритмами поиска. 

Предположим, что количество доступных страниц диска является степенью 2 — 
скажем, 2^. Тогда можно поддерживать каталог 2 е1 ссылок различных страниц, исполь- 
зовать (1 разрядов ключей для индексных указателей внутрь каталога и хранить на од- 
ной и той же странице все ключи, первые к разрядов которых совпадают, как пока- 
зано на рис. 16.10. Подобно тому, как это делалось в случае В-деревьев, элементы на 
страницах хранятся по порядку, и достигнув страницы, которая соответствует эле- 
менту с заданным искомым ключом, мы выполняем последовательный поиск. 

Если удвоить размер каталога и клонировать каждый указатель, можно получить 
структуру, которую можно индексировать первыми 4 разрядами искомого ключа (ри- 
сунок справа). Например, последняя страница по-прежнему определяется как содер- 
жащая элементы с ключами, первые три разряда которых — 111 , и она будет доступ- 
на через каталог, если первые 4 разряда искомого ключа — 1110 или 1111 . Этот 
больший каталог может допускать увеличение таблицы. 

Рисунок 16.10 иллюстрирует две базовых концепции, лежащие в основе расширя- 
емого хеширования. Во-первых, нам не обязательно поддерживать 2 д страниц. 
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РИСУНОК 16.10 ИНДЕКСЫ СТРАНИЦ КАТАЛОГА 

При использовании каталога, состоящего из восьми записей, можно хранить до 40 ключей, храня все 
записи, первые 3 разряда которых совпадают, на одной странице, обратиться к которой можно 
через указатель, хранящийся в каталоге (рисунок слева). Запись 0 каталога содержит указатель на 
страницу, которая содержит все ключи, начинающиеся с 000; запись таблицы 1 содержит указатель 
на страницу, которая содержит все ключи начинающиеся с 001; запись таблицы 2 содержит 
указатель на страницу, которая содержит все ключи, начинающиеся с 010, и т.д. Если некоторые 
страницы заполнены не полностью, количество требующихся страниц можно уменьшить, организуя 
множество указателей на одну и ту же страницу. В данном примере (слева) ключ 373 находится на 
той же странице, что и ключи, начинающиеся с 2; эта страница определена как содержащая 
элементы с ключами, первые два разряда которых — 01 . 
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То есть, может существовать несколько записей каталога, ссылающихся на одну и 
ту же страницу, что не повлияет на возможность быстро выполнять поиск в структуре 
путем объединения на одной странице ключей с различными значениями, первые сі 
разрядов которых совпадают, в то же время позволяя находить страницу, содержащую 
заданный ключ, за счет использования ведущих разрядов ключа для индексации внут- 
ри каталога. Во-вторых, для увеличения емкости таблицы можно удвоить размер ка- 
талога. 

В частности, структура данных, используемая для расширяемого хеширования, 
значительно проще использованной для В-деревьев. Она состоит из страниц, которые 
содержат до М элементов, и каталога, содержащего 2 й указателей на страницы (про- 
грамма 16.5). Указатель в ячейке каталога х ссылается на страницу, которая содержит 
все элементы, ведущие сі разрядов которых равны х. Значение й выбирается достаточ- 
но большим, чтобы на каждой странице гарантированно хранилось менее М элемен- 
тов. Реализация операции зеагсИ проста: мы используем ведущие (1 разрядов ключа для 
индексации внутри каталога, что обеспечивает доступ к странице, которая содержит 
любые элементы с соответствующими ключами, а затем выполняем последовательный 
поиск такого элемента на данной странице (см. программу 16.6). 

Программа 16.5 Структуры данных расширяемого хеширования 

Расширяемая хеш-таблица — это каталог ссылок на страницы (подобно внешним 
узлам в В-деревьях), который содержит до 2 М элементов. Каждая страница содер- 
жит также счетчик (т) количества элементов на странице и целочисленное значе- 
ние (к), указывающее количество ведущих разрядов, которые должны совпадать в 
ключах элементов. Как обычно, N — количество элементов в таблице. Переменная 
б определяет количество разрядов, которые используются для индексации в ката- 
логе, а О — количество записей в каталоге; таким образом, 0=2 б . Вначале табли- 
ца устанавливается соответствующей каталогу размера 1, который указывает на 
пустую страницу. 

ѣѳтрІа'Ье <с1азз Нет, сіазз Кеу> 
сіазз ЗТ 

{ 


зѣтсі. посіе 

{ іп'Ь т; Нет Ь[М]; іпѣ к; 
посіе () { т = 0 ; к = 0 ; } 

} ; 


Ъуресіе^ посіе *1іпк; 
Ііпк* <ііг; 

Нет пиІІНет; 
іп*Ь И, сі, Ц; 
риЫіс : 

ЗТ(іп‘Ь тахИ) 

{ N = 0; <і = 0; О = 
сііг = пеѵ Ііпк [О] ; 
<ііг[0] = пеѵ посіе; 



} 
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Программа 16.6 Поиск в таблице расширяемого хеширования 

Поиск в таблице расширяемого хеширования заключается всего лишь в использо- 
вании ведущих разрядов ключа для индексирования внутри каталога и выполнении 
на указанной странице последовательного поиска элемента, ключ которого равен 
искомому. Единственное выдвигаемое при этом требование — каждая запись ката- 
лога должна ссылаться на страницу, которая гарантированно содержит все элемен- 
ты таблицы символов, начинающиеся с указанных разрядов. 

ргіѵаѣе : 

І-Ьет зеагсЬ(1іпк Ь , Кеу ѵ) 

{ 

±ог (іп*Ь 3 = 0; ^ < Ь->т; з++) 

іі: (ѵ == Ь->Ь[з] .кеу () ) геѣигп Ь->Ъ[д]; 
ге-Ьигп пи11І1:ет; 

} 

риЫіс : 

Ііет зеагсЬ(Кеу ѵ) 

{ геѣигп зеагсЬ (сііг [ЫЪз (ѵ, 0 , сі) ] , ѵ) ; } 


Для поддержки операции іпзегі структура данных должна быть несколько более 
сложной, но одно из ее свойств заключается в том, что этот алгоритм поиска успеш- 
но работает без каких-либо модификаций. Чтобы обеспечить поддержку операции 
іпзегі, необходимо ответить н а следующие вопросы: 

• Что делать, когда количество элементов на странице превышает ее емкость? 

• Какой размер каталога следует использовать? 

Например, в примере, приведенном на рис. 16.10, нельзя было бы использовать 
значение сі — 2, поскольку некоторые страницы оказались бы переполненными, и 
нельзя было бы использовать значение с/ = 5, поскольку слишком много страниц ока- 
зались бы пустыми. Как обычно, наибольший интерес вызывает поддержка операции 
іпзегі для АТД таблицы символов, чтобы, например, структура могла постепенно раз- 
растаться по мере выполнения ряда чередующихся операций зеагсИ и іпзегі. Принятие 
такой точки зрения соответствует уточнению первого вопроса: 

• Что делать, когда необходимо вставить элемент в заполненную страницу? 

Например, в примере, представленном на рис. 16.10, нельзя было бы вставить эле- 
мент, ключ которого начинается с 5 или 7, поскольку соответствующие страницы за- 
полнены. 

Определение 16.3 Расширяемая хеш-таблица порядка сі представляет собой ката- 
лог из 2 ё ссылок на страницы , которые содержат до М элементов с ключами. Первые 
к разрядов элементов на каждой странице совпадают, а каталог содержит 2^' к указа- 
телей на страницу, начинающихся с ячейки, указанной ведущими к разрядами в ключах 
на страницах. 

Некоторые ^-разрядные последовательности могут не появляться ни в одном из 
ключей. Соответствующие записи каталога оставлены в определении 16.3 не опреде- 
ленными, хотя существует естественный способ организации указателей на пустые 
страницы, который вскоре будет рассмотрен. 
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Для поддержания этих характеристик в процессе разрастания таблицы мы исполь- 
зуем две базовые операции: разделение страницы , при котором некоторые ключи с 
полной страницы переносятся на другую страницу, и разделение каталога , при кото- 
ром размер каталога удваивается, а значение д увеличивается на 1. В частности, при 
заполнении страницы мы разделяем ее на две, используя самую левую разрядную 
позицию, где различаются ключи, для определения элементов, которые должны быть 
перемещены на новую страницу. При разделении страницы мы соответствующим 
образом изменяем указатели каталога, при необходимости удваивая размер катало- 
га. 

Как обычно, лучший способ понять алгоритм заключается в отслеживании его ра- 
боты при вставке набора ключей в первоначально пустую таблицу. Вскоре каждая из 
ситуаций, которые должен обрабатывать алгоритм, проявляется в простейшей форме, 
и принципы, лежащие в основе алгоритма, становятся понятными. Построение рас- 
ширяемой хеш-таблицы для набора из 25 восьмеричных ключей, рассматриваемого в 
этой главе, показано на рис. 16.11 — 16.13. Подобно тому, как это имело место в 
В-деревьях, большинство вставок не приводит к переполнению: они просто добавляют 
ключ к странице. Поскольку процесс начинается с одной страницы, а завершается 
восемью, можно предположить, что семь вставок вызвали разделение страниц. По- 
скольку в начале размер каталога равен 1, а в конце — 16, можно предположить, что 
четыре вставки привели к разделению каталога. 






РИСУНОК 16.11 ПОСТРОЕНИЕ РАСШИРЯЕМОЙ ХЕШ-ТАБЛИЦЫ, ЧАСТЬ 1 

Как и в В-деревьях , первые пять вставок в расширяемую хеш-таблицу приходятся на одну страницу 
(рисунок слева). Затем , при вставке ключа 773, мы выполняем разделение на две страницы (одна 
содержит все ключи, начинающиеся с 0 разряда, другая — все ключи, начинающиеся с 1 разряда) и 
удваиваем размер каталога, чтобы он содержал по одному указателю на каждую из страниц 
(рисунок в центре). Ключ 742 вставляется в нижнюю страницу (поскольку он начинается с 1 
разряда), а ключ 373 — в верхнюю страницу (поскольку он начинается с 0 разряда), но затем 
нижнюю страницу приходится разделить, чтобы можно было поместить ключ 524. Для выполнения 
этого разделения все элементы, ключи которых начинаются с разрядов 10, помещаются на одну 
страницу, а все элементы, ключи которых начинаются с разрядов 11 — на другую, после чего размер 
каталога снова удваивается, чтобы в нем могли поместиться указатели на обе эти страницы 
(рисунок справа). Каталог содержит два указателя на страницу, содержащую элементы с ключами, 
которые начинаются с 0 разряда : один для ключей, которые начинаются с разрядов 00, и другой для 
ключей, которые начинаются с разрядов 01. 
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Лемма 16.4 Расширяемая хеш-таблица, построенная из набора ключей, зависит только 
от значений этих ключей и не зависит от порядка их вставки. 

Давайте рассмотрим Ігіе-дерево, соответствующее ключам (см. лемму 15.2), в ко- 
тором каждый внутренний узел помечен количеством элементов в его поддереве. 
Внутренний узел соответствует странице в расширяемой хеш-таблице тогда и толь- 
ко тогда, когда его метка меньше А/, а метка его родительского узла не меньше 
чем М. Все элементы, расположенные ниже этого узла, попадают на данную стра- 
ницу. Если узел находится на уровне к, он соответствует ^-разрядной последова- 
тельности, полученной из пути ігіе-дерева обычным способом, а все записи в ка- 
талоге расширяемой хеш-таблицы, индексы которых начинаются с этой 
^-разрядной последовательности, содержат указатели на соответствующую страни- 
цу. Размер каталога определяется наибольшим уровнем всех внутренних узлов в 
Ігіе-дереве, соответствующих страницам. Таким образом, Ігіе-дерево можно пре- 
образовать в расширяемую хеш-таблицу независимо от порядка вставки элемен- 
тов, и это свойство сохраняется в качестве следствия леммы 15.2. 




РИСУНОК 16.12 ПОСТРОЕНИЕ РАСШИРЯЕМОЙ ХЕШ-ТАБЛИЦЫ, ЧАСТЬ 2 

Мы вставляем ключи 766 и 275 в крайнее справа В-дерево, показанное на рис. 16.11, без выполнения 
какого-либо разделения узлов (рисунок слева). Затем , при вставке ключа 737, нижняя страница 
разделяется и это, поскольку существует только одна связь с нижней страницей, приводит к 
разделению каталога (рисунок в центре). Затем мы вставляем ключи 574, 434, 641 и 207, что 
приводит к разделению верхней страницы (рисунок справа) 
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РИСУНОК 16.13 ПОСТРОЕНИЕ РАСШИРЯЕМОЙ ХЕШ-ТАБЛИЦЫ, ЧАСТЬ 3 

Продолжая пример, приведенный на рис. 16.11 и 16 . 12 , мы вставляем 5 ключей 526, 562, 017, 107 и 
147 в крайнее справа В-дерево, отображенное на рис. 16 . 6 . Разделение узлов происходит при вставке 
ключей 526 (рисунок слева) и 107 (рисунок справа). 
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Программа 16.7 — реализация операции іпзегі для расширяемой хеш-таблицы. 
Прежде всего, мы обращаемся к странице, которая могла бы содержать искомый 
ключ, посредством единственной ссылки к каталогу, как это делалось при поиске. 
Затем мы вставляем в нее новый элемент, как это делалось для внешних узлов в В- 
деревьях (см. программу 16.2). Если в результате этой вставки в узле оказывается М 
элементов, мы вызываем функцию разделения, как это делалось для В-деревьев, 
правда, на этот раз она сложнее. Каждая страница содержит к ведущих разрядов, ко- 
торые заведомо совпадают в ключах всех элементов на данной странице, и, поскольку 
разряды нумеруются слева направо, начиная с 0 , к определяет также индекс разря- 
да, который необходимо проверять для определения способа разделения элементов. 

Программа 16.7 Вставка в расширяемую хеш-таблицу 

Чтобы вставить элемент в расширяемую хеш-таблицу, мы выполняем поиск; затем 
мы вставляем элемент в указанную страницу; далее, разделяем страницу, если 
вставка вызывает переполнение. Общая схема не отличается от используемой для 
В-деревьев, но алгоритмы поиска и разделения иные. Функция разделения созда- 
ет новый узел, затем проверяет к - тый разряд (считая слева) ключа каждого элемен- 
та: если разряд равен 0, элемент остается в старом узле; если он равен 1, элемент 
перемещается в новый узел. Значение к + 1 присваивается полю "заведомо иден- 
тичных ведущих разрядов" обоих узлов после разделения. Если этот процесс не 
приводит к помещению по меньшей мере одного ключа в каждом узле, разделение 
выполняется снова, пока подобным образом не будут разделены все элементы. В 
конце процесса мы вставляем указатель нового узла в каталог. 

ргіѵаЪе : 

ѵоісі зр 1 іі:( 1 іпк Ъ) 

{ Ііпк Ь = пеѵг посіе; 

ѵгЬіІе (Ъ->т == 0 | | Ь->т == М) 

{ 

Ъ->т = >т = 0 ; 

^ог (іп-Ь з = 0; з < М; з++) 

і? (ЪіЪз (Ъ->Ь [ з ] . кеу ( ) , Ь->к, 1) == 0) 

Ъ->Ъ [Ь->т++] = Ь->Ь[з]; 
еізе Ѣ->Ь [і:->пі++] = Ъ->Ь[з]; 

ѣ->к = ++(Ъ->к); 

} 

іпзегЫ)ІК(і:, -Ь->к) ; 

} 

ѵоісі іпзегі:( 1 іпк Ь, Іѣет х) 

{ іпі: з; Кеу ѵ = х.кеу(); 

^ог (з = 0 ; з < Ь->т; з++) 

(ѵ < Ь->Ь [з ] . кеу () ) Ьгеак; 
і:ог (іпѣ і = (Ъ->т)++; і > 3 ; і--) 

Ъ->Ь[і] = Ъ->Ь [ і — 1 ] ; 

Ь->Ь[з] = х; 

іі: (Ъ->т == М) зрІі^(Ь); 

} 

риЫіс : 

ѵоісі іпзег'Ь (І’Ьеш х) 

{ іпзегѣ (сііг [Ьіѣз (х . кеу () , 0, <і) ] , х) ; } 
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Следовательно, для разделения страницы мы создаем новую страницу, затем по- 
мещаем все элементы, для которых данный разряд равен 0, на старую страницу, а 
все элементы, для которых он равен 1 — на новую страницу, и, наконец, устанав- 
ливаем значение счетчика разрядов равным к + 1 для обоих страниц. Возможен слу- 
чай, когда все ключи имеют одинаковое значение разряда к , что привело бы к нали- 
чию заполненного узла. В этом случае мы просто перешли бы к следующему разряду, 
продолжая процесс до тех пор, пока каждая страница не будет содержать, по мень- 
шей мере, один элемент. Со временем процесс должен завершиться, если только не 
имеется М значений одного и того же ключа. Вскоре мы рассмотрим и этот случай. 

Как и в случае В-деревьев, на каждой странице остается свободное место, чтобы 
можно было выполнять разделение после вставки; это упрощает код. Следует снова 
отметить, что эта технология имеет небольшое практическое значение, и ее влиянием 
можно пренебречь при анализе. 

При создании новой страницы в каталог необходимо вставить указатель на нее. 
Выполняющий эту вставку код представлен в программе 16.8. Простейшим является 
случай, когда перед вставкой каталог содержит ровно два указателя на страницу, ко- 
торая разделяется. В этом случае нужно всего лишь обеспечить, чтобы второй указа- 
тель ссылался на новую страницу. Если количество разрядов к , которое требуется для 
различения ключей на новой странице, превышает количество разрядов сі , имеюще- 
еся для доступа к каталогу, размер каталога нужно увеличить, чтобы в нем могла по- 
меститься новая запись. И, в завершение, указатели каталога обновляются соответ- 
ствующим образом. 

Программа 16.8 Вставка в каталог расширяемого хеширования 

Этот обманчиво простой код лежит в основе процесса расширяемого хеширования. 

У нас имеется связь I с узлом, содержащим элементы, первые к разрядов которых 
совпадают, которую требуется вставить в каталог. В простейшем случае, когда зна- 
чения сі и к равны, достаточно просто поместить I в ИМ, где х — значение первых 
сі разрядов I- >Ь[0] (и всех остальных элементов на странице). Если к больше сі, раз- 
мер каталога следует удвоить, пока не будет достигнуто равенство значений сі и к. 
Если к меньше <1, необходимо установить более одного указателя — в первом цикле 
Гог вычисляется количество указателей, которые необходимо установить (2 д ~ к ), а во 
втором выполняется собственно установка. 

ѵоісі іпзегіЛЭІК (Ііпк Ь, іп*Ь к) 

{ іпѣ і, т, х = ЫЪз (*Ь->Ь [0] . кеу () , 0, к) ; 
ѵгЬіІе (сі < к) 

{ Ііпк *о1<і = сііг; 

сі += 1; Б += Б; 

сііг = пеѵ Ііпк [О]; 

^ог (і = 0; і < Б; і++) сііг[і] = о1<і[і/2] ; 
іі: (сі < к) сііг[Ъіѣз(х, 0, сі) А 1] = пеѵг посіе; 

} 

±от (ш = 1; к < сі; к++) т *= 2; 

±ог (і = 0; і < т; і++) сііг[х*т+і] = Ь; 

} 


Если более М элементов имеют дублированные ключи, таблица переполняется и 
программа 16.7 входит в бесконечный цикл, пытаясь найти способ различения клю- 
чей. С этим же тесно связана проблема, заключающаяся в том, что каталог может 
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оказаться неоправданно большим, если ключи имеют излишнее количество совпада- 
ющих ведущих разрядов. Для файлов, которые имеют большое количество дублиро- 
ванных ключей или длинные цепочки разрядных позиций, в которых они совпадают, 
эта ситуация сродни излишнему времени, требуемому для выполнения поразрядной 
сортировки сначала по старшей цифре. Для преодоления этих проблем приходится 
рассчитывать на рандомизацию, обеспечиваемую хеш-функцией (см. упражнение 
16.43). При наличии большого количества дублированных ключей, даже при исполь- 
зовании хеширования, приходится предпринимать экстраординарные действия, по- 
скольку хеш-функции отображают равные ключи на равные хеш-значения. Дублиро- 
ванные ключи могут сделать каталог неестественно большим; кроме того, алгоритм 
полностью разрушается при наличии большего количества равных ключей, чем поме- 
щается на одной странице. Следовательно, прежде чем использовать этот код, необ- 
ходимо добавить проверки, предотвращающие возникновение упомянутых условий 
(см. упражнение 16.35). 

С точки зрения производительности наибольший интерес представляют количество 
используемых страниц (как и в случае В-деревьев) и размер каталога. Для этого ал- 
горитма рандомизация обеспечивается хеш-функциями, поэтому характеристики про- 
изводительности, определенные для среднего случая, сохраняются для любой после- 
довательности N различных вставок. 

Лемма 16.5 При использовании страниц , которые могут содержать М элементов , для 
реализации расширяемого хеширования для файла , содержащего N элементов, в среднем 
требуется около 1.44(УѴ/А/) страниц . Ожидаемое количество записей в каталоге при- 
близительно равно 3.92 (УѴ 1/Л/ )(УѴ/А/). 

Этот (достаточно обоснованный) результат дополняет анализ Ігіе-деревьев, кратко 
рассмотренный в предыдущей главе {см. раздел ссылок). Точные значения констант 
для количества страниц и размера каталога соответственно равны 1§с = 1/1п2 и 
е 1§е = е/1п2, поэтому точные значения величин колеблются вокруг указанных 
средних значений. Это не должно вызывать удивления, поскольку, например, раз- 
мер каталога должен являться степенью 2 — факт, который в результате должен 
приниматься во внимание. 

Обратите внимание, что размер каталога возрастает быстрее, нежели линейно по 
отношению к УѴ, особенно при малых значениях М. Однако, для значений УѴ и Л/, 
представляющих практический интерес, значение УѴ 1 /м достаточ но близко к 1, поэто- 
му реально можно ожидать, что каталог будет иметь около 4(УѴ/А/) записей. 

Мы приняли, что каталог — это массив указателей. Его можно хранить в памяти 
или, если он слишком велик, в памяти можно хранить корневой узел, который ука- 
зывает местонахождение страниц каталога, используя такую же схему индексирова- 
ния. Или же можно добавить еще один уровень, индексируя первый уровень, скажем, 
по первым 10 разрядам, а второй — по остальным разрядам (см. упражнение 16.36). 

Подобно тому, как это делалось для В-деревьев, реализация остальных операций 
таблицы символов оставлена в качестве упражнений (см. упражнения 16.38 и 16.41). 
Так же как и в случае В-деревьев, правильная реализация операции гетоѵе представ- 
ляет собой сложную задачу, но разрешение наличия незаполненных страниц — лег- 
ко реализуемая альтернатива, которая может оказаться эффективной во многих воз- 
никающих на практике ситуациях. 
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Упражнения 

> 16.27 Сколько страниц были бы пустыми, если бы на рис. 16.10 использовался ка- 
талог, размер которого равен 32? 

16.28 Постройте рисунки, соответствующие рис. 16.11 — 16.13, иллюстрирующие 
процесс вставки ключей 562, 221, 240, 771, 274, 233, 401, 273 и 201 в указанном 
порядке в первоначально пустое дерево, при М = 5. 

о 16.29 Постройте рисунки, соответствующие рис. 16.11—16.13, иллюстрирующие 
процесс вставки ключей 562, 221, 240, 771, 274, 233, 401, 273 и 201 в обратном по- 
рядке в первоначально пустое дерево, при М = 5. 

о 16.30 Предположите, что имеется массив упорядоченных элементов. Опишите, как 
можно было бы определить размер каталога расширяемой хеш-таблицы, соответ- 
ствующей этому набору элементов. 

• 16.31 Создайте программу, которая строит расширяемую хеш-таблицу из масси- 
ва упорядоченных элементов, выполняя два прохода по элементам: один для оп- 
ределения размера каталога (см. упражнение 16.30) и второй для распределения 
элементов по страницам и заполнения каталога. 

о 16.32 Приведите набор ключей, для которого соответствующая расширяемая хеш- 
таблица имеет каталог размером 16 при размещении восьми указателей на одной 
странице. 

•• 16.33 Создайте для расширяемого хеширования рисунок, подобный рис. 16.8. 

• 16.34 Создайте программу для вычисления среднего количества внешних страниц 
и среднего размера каталога для расширяемой хеш-таблицы, построенной в ре- 
зультате N случайных вставок в первоначально пустое дерево, при емкости стра- 
ницы М. Вычислите долю пустого пространства в процентах при М- 10, 100 и 1000 
и ІѴ= 10 3 , 10 4 , 10 5 и ІО 6 . 

16.35 Добавьте в программу 16.7 соответствующие проверки с целью предотвра- 
щения неправильной работы в случае вставки в таблицу слишком большого коли- 
чества дублированных ключей или ключей, у которых совпадет слишком много ве- 
дущих разрядов. 

• 16.36 Измените реализацию расширяемого хеширования, приведенную в програм- 
мах 16.5—16.7, чтобы в ней использовался двухуровневый каталог, в каждом узле 
которого содержится не более М указателей. Обратите особое внимание на дей- 
ствия, предпринимаемые, когда каталог впервые разрастается с одноуровневого 
до двухуровневого. 

• 16.37 Измените реализацию расширяемого хеширования, приведенную в програм- 
мах 16.5—16.7, чтобы в структуре данных на одной странице могло существовать 
М элементов. 

о 16.38 Реализуйте операцию зон для расширяемой хеш-таблицы. 

о 16.39 Реализуйте операцию зеіесі для расширяемой хеш-таблицы. 

•• 16.40 Реализуйте операцию гетоѵе для расширяемой хеш-таблицы. 

о 16.41 Реализуйте операцию гетоѵе для расширяемой хеш-таблицы, используя ме- 
тод, указанный в упражнении 16.25. 
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•• 16.42 Разработайте версию расширяемого хеширования, которая разделяет стра- 
ницы при разделении каталога, чтобы каждый указатель каталога указывал на 
уникальную страницу. Проведите эксперименты с целью сравнения производи- 
тельности этой реализации с производительностью стандартной реализации. 

о 16.43 Экспериментально определите количество случайных чисел, которые пред- 
положительно будут сгенерированы прежде, чем будет найдено более М чисел с 
одинаковыми сі начальными разрядами, при М — 10, 100 и 1000 и при 1 < й < 20. 

• 16.44 Измените хеширование с раздельным связыванием (программа 14.3), что- 
бы в нем использовалась хеш-таблица размером 2 М, а элементы хранились на 
страницах размером 2 М. Другими словами, когда страница заполняется, она свя- 
зывается с новой пустой страницей, чтобы каждая запись хеш-таблицы указыва- 
ла на связный список страниц. Экспериментально определите среднее количество 
зондирований, необходимое для выполнения поиска после построения таблицы из 
N элементов со случайными ключами, при М= 10, 100 и 1000 и N = 10 3 , ІО 4 , ІО 5 и 

ю 6 . 

о 16.45 Измените двойное хеширование (программа 14.6), чтобы в нем использова- 
лись страницы размером 2 М при интерпретации обращений к полным страницам 
в качестве "коллизий". Экспериментально определите среднее количество зонди- 
рований, необходимое для выполнения поиска после построения таблицы из N 
элементов со случайными ключами, при А/= 10, 100 и 1000 и N =■ 10 3 , ІО 4 , ІО 5 и ІО 6 , 
при начальном размере таблицы равном 37Ѵ/2 М. 

16.5 Перспективы 

Наиболее важное применение рассмотренных в этой главе методов — это постро- 
ение индексов для очень больших баз данных, поддерживаемых во внешней памяти, 
например, в дисковых файлах. Хотя рассмотренные фундаментальные алгоритмы 
обладают большими возможностями, разработка реализации файловой системы, ос- 
нованной на использовании В-деревьев или расширяемого хеширования представляет 
собой сложную задачу. Во-первых, приведенные в этом разделе программы на С++ 
нельзя использовать непосредственно — они должны быть модифицированы для счи- 
тывания и ссылки на дисковые файлы. Во-вторых, необходимо быть уверенным, что 
параметры алгоритма (например, размеры страницы и каталога) подобраны в соот- 
ветствии с характеристиками конкретного используемого аппаратного обеспечения. 
В-третьих, следует уделить внимание надежности и выявлению и исправлению оши- 
бок. Например, необходимо иметь возможность убедиться в целостности структуры 
данных и принять решение о том, как исправлять любые из возможных ошибок. По- 
добные системные факторы являются критичными и выходят за рамки этой книги. 

С другой стороны, при наличии среды программирования, которая поддержива- 
ет виртуальную память, рассмотренные реализации на языке С++ можно непосред- 
ственно использовать в ситуации, когда необходимо выполнять очень большое коли- 
чество операций применительно к очень большим таблицам символов. В первом 
приближении можно сказать, что при каждом обращении к странице такая система 
будет помещать эту страницу в кэш , в котором эффективно обрабатываются ссылки 
на данные этой страницы. При обращении к странице, которая отсутствует в кэш- 
памяти, система должна считать страницу из внешней памяти, поэтому в первом при- 
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ближении случаи отсутствия страницы в кэше можно считать эквивалентом исполь- 
зуемой нами меры затрат, выражаемой зондированиями. 

При использовании В-деревьев каждый поиск или вставка привязывается к кор- 
ню, поэтому корень всегда будет присутствовать в кэше. В противном случае, при 
достаточно большом значении М , типичные случаи поиска или вставки сопряжены 
максимум с двумя случаями отсутствия в кэше. При достаточно большом объеме кэш- 
памяти существует высокая вероятность того, что первая страница (дочерняя страни- 
ца корня), к которой происходит обращение при поиске, уже присутствует в кэше, 
поэтому средние затраты на один поиск, скорее всего, будут значительно меньше 
двух зондирований. 

При использовании расширяемого хеширования маловероятно, что весь каталог 
будет храниться в кэше, поэтому можно ожидать, что обращение и к каталогу, и к 
странице будет сопряжено с отсутствием в кэше (это худший случай). То есть, для 
выполнения поиска в очень большой таблице требуются два зондирования: одно для 
обращения к соответствующей части каталога, а другое для обращения к соответству- 
ющей странице. 

Эти алгоритмы завершают наше знакомство с поиском, поскольку для эффектив- 
ного их использования требуется понимание базовых свойств бинарного поиска, де- 
ревьев бинарного поиска, сбалансированных деревьев, хеширования и Ігіе- 
деревьев — фундаментальных алгоритмов поиска, которые были изучены в главах 
12-15. Все вместе, эти алгоритмы предоставляют нам решения задачи реализации таб- 
лицы символов в широком множестве ситуаций: они представляют собой прекрасный 
пример возможностей технологии алгоритмов. 

Упражнения 

• 16.46 Разработайте реализацию таблицы символов с использованием В-деревьев, 
которая включает в себя деструктор, конструктор копирования и перегруженную 
операцию присваивания и поддерживает операции сопзігисі, соипі , зеагсН, іпзегі, 
гетоѵе и ]оіп для АТД первого класса таблицы символов с обеспечением поддерж- 
ки дескрипторов клиента (см. упражнения 12.6 и 12.7). 

• 16.47 Разработайте реализацию таблицы символов с использованием расширяемого 
хеширования, которая включает в себя деструктор, конструктор копирования и 
перегруженную операцию присваивания и поддерживает операции сопзігисі, соипі , 
зеагсіі, іпзегі , гетоѵе и ]оіп для АТД первого класса таблицы символов с обеспече- 
нием поддержки дескрипторов клиента (см. упражнения 12.6 и 12.7). 

16.48 Модифицируйте реализацию В-дерева, приведенную в разделе 16.3 (про- 
граммы 16.1 — 16.3), чтобы в ней для ссылок на страницы использовался абстракт- 
ный тип данных. 

16.49 Модифицируйте реализацию расширяемого хеширования, приведенную в 
разделе 16.4 (программы 16.5—16.8), чтобы в ней для ссылок на страницы исполь- 
зовался абстрактный тип данных. 

16.50 Оцените среднее количество зондирований, затрачиваемое на каждый по- 
иск в В-дереве, при выполнении 5 случайных поисков в типичной кэш-системе, 
где Т страниц, к которым недавно выполнялось обращение, хранятся в памяти (и, 
следовательно, они добавляют 0 к значению счетчика проб). Предположите, что 5 
значительно больше Т. 
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16.51 Оцените среднее количество зондирований, затрачиваемое на каждый по- 
иск в расширяемой хеш-таблице, для модели кэш-памяти, описанной в упражне- 
нии 16.50. 

о 16.52 Если используемая система поддерживает виртуальную память, разработайте 
и проведите эксперименты с целью сравнения производительности В-деревьев с 
производительностью бинарного поиска при выполнении случайных поисков в 
очень большой таблице символов. 

16.53 Реализуйте АТД очереди с приоритетами, который поддерживает операцию 
сотігисі для очень большого количества элементов, за которой следует очень боль- 
шое количество операций ітегі, гетоѵе и тахітит (см. главу 9). 

16.54 Разработайте АТД внешней таблицы символов, основанной на применении 
представления В-деревьев в виде списка пропусков (см. упражнение 13.80). 

• 16.55 Если используемая система поддерживает виртуальную память, проведите 
эксперименты с целью определения значения Л/, обеспечивающего наименьшее 
время выполнения для реализации В-дерева, которое поддерживает случайные 
операции ітегі в очень большой таблице символов. (Прежде чем выполнять подоб- 
ные эксперименты, которые могут потребовать больших затрат, возможно, стоит 
изучить основные характеристики используемой системы.) 

•• 16.56 Модифицируйте реализацию В-дерева, приведенную в разделе 16.3 (про- 
граммы 16.1-16.3), чтобы она работала в среде, в которой таблица размещается на 
внешнем устройстве хранения информации. Если система допускает произволь- 
ный доступ к файлам, поместите всю таблицу в один (очень большой) файл и в 
структуре данных вместо указателей используйте смещение внутри файла. Если 
система допускает непосредственное обращение к страницам на внешних устрой- 
ствах, в структуре данных вместо указателей используйте адреса страниц. Если 
система допускает оба вида доступа, выберите подход, который, по вашему мне- 
нию, наиболее подходит для реализации очень большой таблицы символов. 

•• 16 . 57 , Модифицируйте реализацию расширяемого хеширования, приведенную в 
разделе 16.4 (программы 16.5-16.8), чтобы она работала в среде, в которой таблица 
размещается на внешнем устройстве хранения информации. Поясните причины 
выбранного подхода к распределению каталога и страниц по файлам (см. упраж- 
нение 16.56). 

Литература, использованная в части 4 

Основными источниками для этого раздела являются книги Кнута (КпиіЬ); Баеца- 
Ятса (Ваега-Уа1е$) и Тонне (Ооппеі); Мехлхорна (МеЫЬогп); Кормена (Согшеп), 
Лейзерзона (Ьеі$ег$оп) и Ривеста (Кіѵезі). В этих книгах подробно рассматриваются 
многие из приведенных в этой части алгоритмов, вместе с математическим анализом 
и предложениями по практическому применению. Классические методы подробно 
изложены в книге Кнута. Более новые методы описаны в других книгах, в них же 
приводятся ссылки на другую литературу. В этих четырех источниках, а также в книге 
Седжвика ($её§е\ѵіск)-Флажолета (Ріаріеі) описан практически весь материал, кото- 
рый упоминается, как "выходящий за рамки этой книги”. 

Материал, приведенный в главе 13, взят из статьи Роура (Коига) и Мартинеца 
(Магііпег) 1996 г., статьи Слеатора (Зіеаіог) и Тарьяна (Тацап) 1985 г. и статьи Гюи- 
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ба (ОиіЪаз) и Седжвика 1978 г. Как видно из дат публикации этих статей, исследова- 
ние сбалансированных деревьев продолжается. Перечисленные труды содержат под- 
робные обоснования свойств ЯВ-деревьев и аналогичных им структур, а также ссыл- 
ки на более современные работы. 

Трактовка Ігіе-деревьев, приведенная в главе 15, является классической (хотя в 
литературе редко можно встретить реализации на языке С++). Материал по Т8Т-де- 
ревьям взят из статьи Бентли (Вепііеу) и Седжвика, опубликованной в 1997 г. 

В статье Байера (Вауег) и Мак-Крейта (МсСгеі§Ы), опубликованной в 1972 г., рас- 
сматриваются В-деревья; алгоритм расширяемого хеширования, представленный в 
главе 16, взят из статьи Фагина (Ра§іп), Нивергельта (ІЧіеѵег§е11), Пиппенгера 
(Рірреп§ег) и Стронга (8ігоп§), опубликованной в 1979 г. Аналитические результаты 
в отношении расширяемого хеширования были получены Флажолетом в 1983 г. С 
этими статьями обязательно следует ознакомиться всем, кто желает получить более 
подробную информацию по методам внешнего поиска. Практическое применение 
этих методов обусловлено контекстом систем баз данных. С введением в эту область 
можно ознакомиться, например, в книге Дейта (Оаіе). 

Я. Ваеха-Уаіез ап<3 С. Н. Ооппеі, НапсІЬоок о/ АІ$огііктз апсі Оаіа Зігисіигез, зесопсІ 
есііііоп, Асісіізоп-^езіеу, Яеасііп&МА, 1984. 

). Ь. Вепііеу апсі К. 8е(1§еАѵіск, “8огііп8 апсі зеагсЬіп§ зігіп^з,” Еі§МЬ 8утрозіит оп 
Эізсгеіе А1§огкЬтз, РІе>ѵ Огіеапз, іапиагу, 1997. 

К. Вауег апсі Е. М. МсСгеі§Ы, “Ог^ашхабоп апсі таіпіепапсе оГ 1аг§е огбегесі іпсіехез,” 
Ас Іа Іп/огтаііса 1, 1972. 

Т. Н. Согшеп, С. Е. Ьеізегзоп, апсі Я. Ь. Яіѵезі, Іпігосіисііоп іо АІ^огііктз, МІТ Ргезз, 1990. 

С. 1. БаГе, Ап Іпігосіисііоп іо ІІаіаЬазе Зузіетз, зіхіЬ есіШоп, АсШізоп-^езІеу, Яеасііпз, 
МА, 1995. 

Я. Ра§іп, ]. Ыіеѵег§ек, N. Рірреп§ег апсі Н. Я. 8ігоп§, “ЕхІепсііЫе ЬазЬіп§— а Газі ассезз 
теіЬосІ Гог бупатіс ГПез,” АСМ Тгатасііот оп ОаіаЬазе Зузіетз 4 , 1979. 

Р. Р1а]о1е1, “Оп іЬе регГогтапсе апаіузіз оГ ехІепсііЫе ЬазЬіп§ апсі Ігіе зеагсЬ,” Асіа 
Іп/огтаііса 20 , 1983. 

Ь. ОиіЪаз апсі Я. 8есі§е\ѵіск, “А сіісЬготаІіс Ггате\ѵогк Гог Ьаіапсесі Ігеез,” іп 19ік Аппиаі 
Зутрозіит оп Роипсіаііопз о/ Сотриіег Зсіепсе , ІЕЕЕ, 1978. Аізо іп А Оесасіе о/ Рго$гезз 
1970-1980 , Хегох РАЯС, Раіо Ако, СА. 

Э. Е. Кпиік, Тке Агі о/ Сотриіег Рго^гаттіщ. Ѵоіите 3: Зогііп% апсі Зеагскіп зесопсІ 
есікіоп, Асісіізоп-^езіеу, ЯеасИп§, МА, 1997. 

К. МеЫЬогп, Оаіа Зігисіигез апсі АІ%огііктз 1: Зогііп$ апсі Зеагскіп, 8ргіп§ег-Ѵег1а§, 
Вегііп, 1984. 

8. Яоига апсі С. Магііпех, “Яапботіхаііоп оГ зеагсЬ Ігеез Ьу зиЫгее зіхе,” РоийЬ 
Еигореап 8утр05Іит оп А1§огкЬтз, Вагсеіопа, 8ер1етЬег, 1996. 

Я. 8еб§е\ѵіск апсі Р. Р1а]о1еі, Ап Іпігосіисііоп іо іке Апаіузіз о/ АІ%огііктз , Асісіізоп-^езіеу, 
Яеасііп§, МА, 1996. 

О. 81еа1ог апсі Я. Е. Тацап, “8е1Г-асуизІіп§ Ьіпагу зеагсЬ Ігеез,” Іоитаі о/ іке АСМ 32 , 
1985. 
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Символы 

:: 155 
« 132 
== 132 

А 

Абстрактные операции 26 

Япб (поиск) 26, 31, 36 

ипіоп (объединение) 26, 33, 36 

Абстрактный объект 1 36 

Абстрактный тип данных (АТД) 127,164 

дек (сІоиЫе-епсІесІ циеие). См. Очередь: 
двухсторонняя 

Автоматическое распределение памяти 181 

Алгоритм 21, 42, 110, 185, 190, 197, 296, 
299, 316, 331, 402, 440, 603, 645 

амортизации 525 
амортизационного анализа 595 
анализ 23, 42, 47 

быстрого объединения 29. См. также Метод : 
быстрого объединения 

быстрого поиска 27, 28. См. также Метод: 
быстрого поиска 

быстрой сортировки 299. См. также Метод: 
быстрой сортировки 

вероятностный 316 

взвешенного быстрого объединения 32 
вставки 603 
Горнера 185, 572 
Евклида 193 

индексирования текстовых строк 640 
обменного слияния 333 
обхода дерева 235 
объединения-поиска (ипіоп -ІШ) 36 
оперативный 36 
оптимизации 525 

пирамидальной сортировки (йеарзоіі) 331 

поиска 603, 645 

поиска максимума 200 

поразрядной сортировки 402. См. также 
Поразрядная сортировка 

"разделяй и властвуй" 197, 207. См. также 
Рекурсия 


Алгоритм 

рандомизированный 71 
рандомизации 525 
распределяющего подсчета 296 
рекурсивный 190 
"сборка мусора" 1 1 0 

сжатия пути. См. Метод: сжатия пути (рабі 
сотргеззіоп) 

случайного хеширования 590 
сортировки 440 
неадаптивный 440 
хеширования 578 
Амортизация 525 
Анализ 23, 44 
алгоритмов 42, 47 
производительности 70 
эмпирический 44 
Аппроксимация 91 
нормальная 91 
функций 60 

Асимптотическое выражение 57 
Ассоциативная память 476 

Б 

База данных 646 
Байт 111, 401 

Балансировка ВЗТ-дерева 524 
Библиотека стандартных шаблонов С++ 22 
Бинарный поиск 66, 493 
Бит 404 

Битонная (Ьііопіс) последовательность 335 
Бор (Іогезі) 33, 219, 223. См. также Дерево 
Быстрая сортировка 299, 407 
двоичная 407 

нерекурсивная реализация 310 
с разделением на три части 322 
Быстрый поиск (диісИіпс!) 28 

В 

Вектор 324 

Вершина (ѵегіех) 120, 219 
Виртуальная память 467, 646 
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Внешний поиск 645 
Внешняя сортировка 454 
Вставка 

в 2-3-4-дерево 541 
в В-дерево 658 
в ВЗТ-дерево 502 
в ВВ-дерево 548, 549 
в каталог расширяемого хеширования 673 
в расширяемую хеш-таблицу 672 
в списке пропусков 556 
с расширением 536 
со скосом 534 
Выборка 326, 327, 330 
медианы 327 
нерекурсивная 327 
Выражение 57 
асимптотическое 57 

Г 

Гармонические числа 54 
Граф 26, 120, 224 
насыщенный 123 
неориентированный 121 
обход графа 240 

представление в виде списков смежности 1 22 
разреженный 1 23 
связный (соппесіесі) 225 

д 

Данные 45 
ошибочные 45 
реальные 45 
случайные 45 
структура 76, 86 
тип 76 

Данные-члены 129 
Двоичное представление 62 
Двоичный логарифм 53, 54 
Двойное хеширование 588 
Дек 164 

Дерево 26, 29, 77, 189, 219, 311, 337, 358, 
386, 477, 603 

2-3- 552 
2-3-4 

нисходящее 540 
построение 543 
разделение 542 
сбалансированное 540 


Дерево 
В 652, 654 

В5Т 505, 509, 515, 524 
двойная ротация 535 
рандомизованное 527 
сбалансированное 524 
М-арное 221 
раігісіа 617 
ВВ 545 
ігіе 608 

многопутевое 628 
Т5Т 629 

бинарного поиска 238, 477, 498, 533 
расширенное 533 
бинарное 221, 236, 391 
биномиальное 391 
быстрой сортировки 311 
главное 223 
корень 30 
красно-черное 545 
неупорядоченное 224 
обход дерева 1 90, 230 
объединение дерева 530 
остовное 26 

"разделяй и властвуй" 337, 338 
с корнем 220, 224 
свободное 220 
сортирующее 358, 363 
индексное 386 
суффиксов 640 
упорядоченное 220 
цифрового поиска (05Т) 603 
бинарное 604 

Дескриптор 519. См. также Ссылка 
Деструктор 175 

Динамические хеш-таблицы 594 
Динамическое программирование 216 
Динамическое распределение памяти 108 
Доступ 649 

индексированный последовательный 649 
Драйвер 

комплексных чисел 172 
сортировки массивов 279 
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Заглушка (зіиЬ) 134 
Задача 200, 321, 450 
Бозе-Нельсона 450 
голландского национального флага 321 
занятости 580 
Иосифа 97 

коллекционера карточек 581 
о дне рождения 580 
о ранце 212, 214 
о ханойских башнях 200 
связности 23, 26 
сложность 71 
Запись 1 42 
инфиксная 142 
Польская 142 
постфикрная 142 
Звезда Коха 207 
Золотая пропорция 210 
Золотое сечение (доісіеп гаііо) 55, 572 
Зондирование 583, 647 
линейное 583 

И 

Инверсия 265 
Индекс 508, 643 
текстовой строки 509 
Индексный элемент 170 
Интерфейс 82, 127 
Аггау.Ь 280 
непрозрачный 127 
Инфиксная запись 142 

К 

Каталог 650 
Класс 83, 127, 138 
Сотріех 1 74 
Нет 1 36 
РОІЫТ 128 
ОЮЕ 176 
зігіпд 114, 180 
Ѵесіог 90 
абстрактный 156 
контейнерный 138 
производный 156 
кластер 585 
Кластеризация 588 
Клиент 1 27 


Клиентская программа 82 
Ключ 251, 259, 321, 406, 475, 602 
дублированный 321 
поиска 475 

сигнальный 259. См. также Сортировка: 
вставками 

Ключевое слово 130 
ргіѵаіе 1 30 
риЫіс 130 
зіайс 130, 131 
«ііз 130 

Коллекция объектов 1 36 
Компаратор 439, 445 
слияния 469 

Комплексные корни из единицы 174 
Компоненты 26 
связанные 26 
Константа 54 
Эйлера 54 
Конструирование 564 
Конструктор 95, 129 
копирования 175, 178 
списка пропусков 558 
Контейнерный класс 138 
Корень (гооі) 30, 220 
Корзина 412 

Л 

Линейное зондирование 583 
Листья 220 
Логарифм 53, 54 
двоичный 53, 54 
натуральный 53 

М 

Марковская цепь 660 
Массив 27, 83, 86, 87 
двумерный 116 
Матрица 116 
разреженная 120 
смежности 121 
Медиана 326 
Мемуаризация 212 

Метод 27, 197, 295, 300, 418, 438, 578 

быстрого объединения См. Алгоритм: быстрого 
объединения 

быстрого поиска 27. См. также Алгоритм: 
быстрого поиска 
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Метод 

быстрой сортировки 300. См. также Алгоритм: 
быстрой сортировки 

выборки 326 

медианы из трех элементов 316 
раздельного связывания 578 
"разделяй и властвуй" 197 
распределяющего подсчета 295 
самоорганизующегося поиска 514 
сжатия пути (раШ сотргеззіоп) 34 
сортировки специального назначения 248, 438 
Флойда 379 

эвристика в масштабах корзины 418 
Моделирование неупорядоченной очереди 176 
Модульное 

программирование 133 
хеширование 570 
Мультисписок 120 

Н 

Натуральный логарифм 53 
Нормальная аппроксимация 91 

О 

О-нотация 49 
Обход графа 240 
Общедоступный (риЫіс) 130 
Объединение 26 

двух В$Т-деревьев 520 
дерева 530 
Объект 129, 136 
абстрактный 136 
коллекция 1 36 

Объектно-ориентированное программирование 
(ООП) 130 

Объявление ІуребеІ 80 
Оператор 
беіеіе 1 08 
п Ъѵі 1 08 
пеѵѵ[] 90 
геіигп 79 
Операции 26 
абстрактные 26 

Ш (поиск) 26, 32, 36 
ипіоп (объединение) 26, 33, 36 
со строками 112 


Операция 132, 148, 326, 439, 479, 646 
« 132 
== 132,478 
соипі 485 

іпзеіі 167, 393, 500, 581, 646 
Іоіп 520, 560 
рагііііоп 517 

гетоѵе (удаление) 481,488, 593 
зеагсб (поиск) 481, 490, 581, 529, 646 
зеіесі (выбор) 480, 515 
зогі (сортировка) 480 
выборки (зеіесііоп) 326 
вытолкнуть 148 
записи (ѵѵгііе) 454 
затолкнуть 148 

идеального обратного тасования (реііесі 
ипзІіиЯІе) 440 

идеального тасования (реіІесІ-зІиіЯІе) 439 

нахождения медианы 326 

объединить (іоіп) 479 

поиск (Ііпб) 153 

соединение (ипіоп) 153 

создать 148, 153 

сравнения 113 

сравнения обмена (сошраге-ехсПапде) 440 
считывания (геасі) 454 
Оптимизация 525 

Остовное дерево (зраппіпд Ігее) 26 
Очередь 137, 159, 355 
ПРО 159 

без повторяющихся элементов 1 68 

на базе массива 162 

на базе связного списка 161 

биномиальная 358, 389, 392 

двухсторонняя 164. См. также Абстрактный тип 
данных: дек (боиЫе-епбеб риеие) 

неупорядоченная 163 

обобщенная 137, 163 

объединение двух биномиальных очередей 397 
по приоритетам 355 

в виде двухсвязного списка 383 
для индексных элементов 385 
на базе индексного сортирующего дерева 387 
на базе сортирующего дерева 368 
неупорядоченная 382 
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Пакет 333 
Память 476 

автоматическое распределение памяти 181 
ассоциативная 476 
виртуальная 465, 646 
утечка 177 

Параметры функции 79 

Перегруз 466 

Перегрузка (оѵегіоасііпд) 83 

Перегрузка операций (орегаіог оѵегіоасііпд) 131 

Пирамидальная сортировка 331 

Поиск 

26, 28, 65, 190, 474, 475, 602, 645, 646 
бинарный 66, 68, 493 
ближайшего соседа 482 
быстрый (диісМіпс!) 28 
в В -дереве 657 
в глубину 190, 240 
в диапазоне 482, 495 
в списках пропусков 557 
в таблице расширяемого хеширования 668 
в ширину 243 
внешний 645 
интерполяционный 496 
неуспешный 489 
от метки 482 
поразрядный 602 
последовательный 65, 68, 486 
с использованием индексации по ключам 483 
строки 114 
успешный 489 
Полином 182 
Польская запись 142 
Попытка Бернулли 90 
Поразрядная сортировка 401 
1.50 403, 425 
МЗО 403, 412 
обменная 407 
Постоянная См. Константа 
Постоянная Эйлера 54 
Постфиксная запись 142 
Потеря быстродействия 114 
Представление 62 
двоичное 62 

Преобразование типов 78 

78 


Префиксная запись 142 
Приватный (ргіѵаіе) 130 
Приведение типов 78 
Программа 82, 145, 189, 205, 240 
РозІЗсгірІ 145 
клиентская 82 
поиск в глубину 240 
рекурсивная 189 
рисования линейки 205 
Программирование 211 
динамическое 216 
восходящее 211 
нисходящее 212 
модульное 1 33 
Пропорция 210 
золотая 210 

Простые числа Мерсенне 571 
Процедура 
йхйоѵѵп 370 
ИхІІр 370 
Путь (раіб) 219 
длина 227 
простой 225 
сжатие 34 

Р 

Разделение 
каталога 669 
страницы 669 

Раздельное связывание 578 
Разрешение конфликтов 568 
Рандомизация 525, 573 
Распределение памяти 108, 181 
автоматическое 181 
динамическое 108 
под двумерный массив 1 1 7 
Расширяемое хеширование 665 
Реализация 1 27 
Ребра 1 20 
Ребро (есіде) 219 
Рекуррентные соотношенияи 60 
Рекурсия 60, 189, 340, 353 
глубина рекурсии 195 
листовая (оконечная) 196 
"разделяй и властвуй" 197 
Решето Эратосфена 88 
Ротация 512 
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С 

Свойства графов 26 
Связанные компоненты 26 
Связность 23 

Связный список (Ііпкесі Іізі) 93,94, 101,555 
двухуровневый 555 
Связывание 578 
раздельное 578 
Связь 

нулевая 498 
Сертификат 601 
Сеть сортировки 439, 445 
Сжатие пути 34 

делением пополам 35 
Символ (сМаг) 78 
Слияние 330, 332, 456 
абстрактное обменное 334 
без использования служебных меток 335 
двухпутевое 332 
многофазное 461 

сбалансированное многопутевое 456 
связных списков 350 

Словарь 476. См. также Таблица символов 
Слово 404 
Сложность задачи 71 
верхняя граница 71 
нижняя граница 71 

Сортировка 103, 248, 251, 299, 330, 

355, 401, 439, 454 

адаптивная 253 

битонной последовательности 335. См. также 
Слияние 

быстрая 299 

двоичная 407 

многомерная 424 

нерекурсивная реализация 310 

с разделением на три части 322 

Бэтчера 442 

внешняя 251, 454 

внутренняя 251 

вставками 253, 258 

выбором 257 

выбором связного списка 291, 293 
из сортирующего дерева 372 
индексная 286 

массива с помощью управляющей программы 252 
массива строк 119 


Сортировка 

методом вставки в список 1 03 

методом распределяющего подсчета 296 

методом Шелла 269 

неадаптивная 253 

непрямая 255 

нисходящая 371 

обменная 289 

пирамидальная 331, 355, 373, 375 
по индексам и указателям 283 
по указателям 286 
поблочная 471 

поразрядная 401. См. также Поразрядная 
сортировка 

обменная 407 

трехпутевая быстрая 420 

производительность 263 

пузырьковая 261 

с использованием очереди по приоритетам 371 
с помощью В5Т-дерева 501 
связных списков слиянием сверху вниз 351 
слиянием 330 

без копирования 341 
восходящая 342 
нисходящая 336 

ориентированная на связные списки 349 
слиянием Бэтчера 439 
четно-нечетная 440 
строк 118 
устойчивая 255 
Шейкер 267 

Специальные функции 54 
Спецификация 141 
Список 86 

двухсвязный 106 

интерфейс обработки списков 105 

мультисписок 120 

обработка 100 

обращение списка 101 

обход (Ігаѵегзе) элементов списка 1 01 

пропусков 555 

распределение памяти под списки 108 
связный 93, 100 
смежности 1 22 
циклический 97 
Ссылка 519 
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Стек 140, 309 
иРО 140 

магазинного типа (ризМоѵѵп зіаск) 137, 309 
без повторяющихся элементов 167 
на базе массива 148 
на базе связного списка 149 
Страница 647 
Строка 111, 324, 404 
операции со строками 1 1 2 
сравнения 113 
поиск 114 

Структура 77, 83, 94 
данных 21, 76, 86, 363, 551 
АѴЬ 552 

индексного сортирующего дерева 385 
пирамидальная 363 
составная 116 
самоссылочная 94 
составная 77 
циклическая 94 

Т 


Таблица 

символов 476, 600 
существования (ехізіепсе ІаЫе) 484 
хеш 594 
Тип 77 

Тип данных 76, 78, 84, 126, 284 
боиЫе 78 


ІІоаІ 78 

іпі 78 

ііет 284 

Іопд іпі 78 

роіпі 84 

зітоіі іпі 78 

абстрактный (АТД) 1 26 

базовый 78 

первого класса 171 

преобразование 78. См. также Приведение 
типов 

Типы чисел 80 
Турнир 236 



Удаление в списках пропусков 560 
Узел 94 
ведущий 102 
внешний 498 
внутренний 498 


Узел (по бе) 219 

-предок (дгапб рагепі) 220 
дочерний (сЫІбгеп) 220 
родительский (рагепі) 220 
родственный (зіЫіпд) 220 
терминальный (оконечный) 220 
Указатель (роіпіег) 77, 85 
строки 1 1 3 

Универсальныное хеширование 574 
Упорядочение файла 290 

обменное 290. См. также Сортировка: Обменная 
Уровень абстракции 1 26 
Утечка памяти (тегтюгу Іеак) 177, 180 

Ф 

Файл 290 

обменное упорядочение 290 См. также 
Сортировка: Обменная 

Факториал 54 

Формула Стирлинга 55 

Фрактал 207 

Коха 208 

Функция 54, 60, 77 
Шот 373 
ІіхІІр 373 
кеу() 478 
таіп 252 
РОЩ) 128, 129 
цзоіі 118, 287 
зеагсИ 481, 503, 510 
зНоѵѵР 501 
зогі 258, 480, 489 
зігстр 324 
-член 1 29 
статическая 131 
аппроксимация 60 
вычисления факториала 191 
дружественная 131 
Иосифа 98 
объявление 79 
округления сверху 54 
округления снизу 54 
определение 79 
параметры 79 
рекурсивная 190, 198 
специальная 54 
хеш 567 
модульная 571 
целочисленная 62 
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X 

Хеш-таблица 668 
динамическая 594 
расширяемая 668 
Хеш-функция 569 

для символьных строк 574 
для строковых ключей 573 
мультипликативная 569 
Хеширование 474, 567, 665 
двойное 588 

методом линейного зондирования 584 
модульное 570 
расширяемое 665 
с открытой адресацией 583 
с помощью раздельного связывания 578 
случайное 590 
универсальное 574 
упорядоченное 600 

ц 

Целые числа (іпі) 78 
Цепь 660 
марковская 660 
Цикл 225 

Ч 

Числа 54, 78 
гармонические 54 
Фибоначчи 54, 211 
Мерсенне 571 
мнимые 173 

с плавающей точкой (Лоаі) 78 
целые 78 

Э 

Эвристика в масштабах корзины 418 
Элемент 170, 475 
индексный 1 70 
Эмпирический анализ 44 

Я 

Язык 145 
Ро$18сгір1 145 

Иностранные термины 

В5Т-дерево 524 
ПРО 233 
ПРО 140, 233 
Ро$18сгір1 145 
ЗІапсІагсІ Тетріаіе УЬгагу 22 



